ちゅらデータ・データエンジニアギルド通信 Vol.10(〜24/01/04)
がく@ちゅらデータです。
新年あけまして仕事したくないです!!
今年も一年よろしく仕事したくないです!!!!!!
新春縮小版でお送りします(特大版じゃないんかーーい)
弊社には、ギルドっていう横軸組織があります。そこの定例で、データ界隈を中心に、関係しそうな話題などを共有しています。
まぁ、おもに私がこれ良さそ〜と思う話題をメモっていてそれを共有しています。
それ、公開しちゃってもいいんじゃね?って思ったので、記事を書いていこうかな〜と思っております。
※テンプレ
今週のデータ界隈のトピック
参加枠 794/800名・・・・すげぇぇぇ
参加者が2000人超えとるやないけ・・・・・
※タシロもサポートで参加します♪
JTUGの総会!2023年の!!!
エンジニアリングマネージャーのお話
今週のGCP
週間GCPってないの?
だれか!だれか!!!!!
( g-genさんが私のGCPの情報源です!いつもありがとうございます!!!!)
今週のAWS
週間AWSはお休み
今週のAzure
Snowflakeの勉強ブログもすごくよいのですが・・・・年末年始の勉強の題材のAzure選んだんだろうな〜
Microsoft Learn がいいんだよ・・・・ってのを、年末年始で観測しましたが、いまいち整理されてないんだよなァァァという、弊社同僚の叫びもあったことをここに記させていただきます。
今週のSnowflake
Accessを抜いて、9位になりましたね!!!
ただ database of the YearはPostgreSQLだったようで、3年連続?の受賞はならなかった・・・かな?
- SHOW系の結果にクエリしたい
これやりたいですよね!
SHOW GRANTS TO ROLE TESTROLE;
SELECT "name" FROM TABLE(RESULT_SCAN(LAST_QUERY_ID()))
WHERE "granted_on" = 'ROLE';
result_scanとlast_query_idを使うのが味噌ですよね
UDFの中とかでよく使います
こういうのをやりたいんですよね・・・・・今年は
とくに「Deep Dive of the Month(今月のディープダイブ)」
コンテナ・サービスはなぜ大きな意味を持つのか?Snowflakeはデータ周りの完全なプラットフォームになるための旅を続けており、2023年はそれが深刻な競争相手になることを証明し続ける素晴らしい年だった。このリリースでは、データ上に完全なKubernetesマネージドサービスが提供されるため、コンピューティングロジックにフルアクセスするためにデータをコピーする必要がなくなる
今週のセキュリティ
高校のをちゃんとやるってほんとすごい(どれだけお金がかかってるかも気になる)
さながら映画ミッションインポッシブルみたい!
今週のデータモデリング
dbt
dbtには、OSS版の dbtCore と SaaS版の dbtCloud がありますが、その2つをハイブリットでつかったらいいんでね?というお話。
dbt Tokyo でもいっとき話が出ていた話題だった記憶があります
dbt自体は複数ユーザで開発
ただ、dbtCloudには色々利点(実行環境であったり、スケジューラーであったり)があるので、そこをうまく使うという・・・・これはコストコントロール的にもとても良いですねーー
今週のデータインジェスト
Airbyte
今週のML/AI
LLM
LLMの内部状態を観察することで「出力がハルシネーションか否かを判別する」手法が開発されたとのことです。
報告によると、実験では96%以上の精度で識別できたとされています。
手法の名称は『LLMファクトスコープ』と付けられています。
"LLM Factoscope: Uncovering LLMs' Factual Discernment through Inner States Analysis"より
■LLMファクトスコープの概要
1. シャムネットワークを活用
2. LLMの内部状態を分析
※シャムネットワーク(Siamese Network):
出力の類似度を判断するためのニューラルネット
■実験と結果
1. Llama2、VicunaなどのLLMを使用
2. 特定データセットと事実確認プロンプトで出力
3. LLMの内部状態から、事実かを判断
4. 出力が事実なのかを96%以上の精度で識別した
→ハルシネーションの検出手法として有望と判断
ただし、本手法で識別できるのはデータセットに対する出力の整合性です。
そのため、厳密な意味で出力の事実性を保証するためには、外部情報と照合する必要があることには注意が必要です。
これで改めてキャッチアップしておきたいですね
その他
diffastic
$ brew install difftastic
$ export GIT_EXTERNAL_DIFF=/opt/homebrew/bin/difft
すればgit diffでそのまま使える
Discussion