イベント「Snowflake Cortex AI大解説!」に参加しました
緊急来日!データエンジニア界のインフルエンサーDash DesaiによるSnowflake Cortex AI大解説!
に参加したので簡単なレポートを書きます。
SNOWFLAKE CORTEX AIでLLMを使用する
SnowflakeのLLMに対して三つの原則
- 効率性
- 最新のLLMモデルをプラットフォームとして用意
- 簡単
- 信頼性
- Snowflakeのプラットフォームに信頼性が組み込まれています
Out of Box
Think outside the box”とは「(既成の)枠、既成概念にとらわれず考える」という
Snowflakeで使用できるLLMモデルの一覧
LLMモデルのリストは常に更新されています
例えば「Llama 3.1」はすでに使用可能になっています
どのLLMモデルを使用するか?
- ユースケース
- LLMを使用して何をしたいか。翻訳、要約
- コスト
- LLMでコストが違う。
LLMモデルをホストするか、PaaSに任せるか
- 会場でアンケート。50人程度に中でホスティングした人は一人。
- とてもホスティングは大変
ノウハウ、GPUの用意(購入コスト、運営コスト)、API、負荷分散etc
CortexからLLMを呼び出せる。もちろんセキュアに
SQLから、Pythonのコードから
タスクに特化LLMファンクション(機能
要約、センチメンタル分析、回答を抽出、翻訳。
センチメンタル分析とは、文章内容を分析。感情のスコアリング
Cortex コンプリート
プロントを発行。
データはSnowflakeの中に。セキュア。
Easy to Prosess data Scale with LLM
- モデルを選ぶ
- プロント
- table
Snowflake Arcticの話
ベンチマークの結果、text to SQL(プロントからのSQL生成)の性能が高い
オープンソースであり、hugginfaceなどにモデルがある
このあたりからメモ書きであり、清書出来ていない
LLMモデルを作成し、テーブルに保存してある。
テーブルの内容
顧客の声がデータとしてある。
各言語で保存されている。
これを翻訳します。
コスト、性能を機能に特化させている。プロントエンジニアリングは不要
cortexで翻訳機能を呼び出し、翻訳結果を出力する
sentimen(感情)分析。
-1から1の間。マイナスはネガティブな内容
要約関数の使用
関数を連続して使用することも可能
要約して、センチメンタル分析を行う
コメント)これのメリットは?コストメリット?
カウントトークン
コストはいくら?
ファンクションのコストはトークンの使用料
サマライズのトークンは約300
〇〇のトークンは3000。
プロントエンジニアリング
サマリーをしたい。出力はjsonで。長さは200ワードで。
jsonに出力する内容の指定。
コンプリート関数の使用とプロントを考える
翻訳
モデルを変更したい?
コード内のモデル指定パラメータを変更するだけで
他のコードは変更の必要が無い
モデルをミストラスに変更
出力内容が異なる。
今回は期待した結果とは違う結果が出力
ストリーム理っと
ファインチューニング
教師有りファインチューニング
適さない例
独自データ、少数のデータ
データが頻繁に変更される
コーテックスはサーバレス。
- ベースモデルの選択。
- データの提供。もちろんセキュアに。データは共有されない
Ui or SQL
NoteBookの使用
デモ。通信事業者のでもデータの使用
顧客の声がデータとしてある
対応方法(メールか電話)
LLMの使用はコストが高い
チケット(バックログ)のカテゴリ分けをする。LLMを使用する
まずはプロントの記入
ミストラルラージモデルの使用
良い結果が返ってくる。しかしコストが高くつく。
100万トークンで5ドル程度。比較するとコスト高である。
高コストLLMの出力を小規模LLMのインプットにする
これでコストを抑えられる
ミスとられる7bの使用
Snowlfake データクラウドのユーザ会 SnowVillage のメンバーで運営しています。 Publication参加方法はこちらをご参照ください。 zenn.dev/dataheroes/articles/db5da0959b4bdd
Discussion