😚

ちゅらデータ・データエンジニアギルド通信 Vol.10(〜24/01/04)

がく@ちゅらデータです。
新年あけまして仕事したくないです!!
今年も一年よろしく仕事したくないです!!!!!!

新春縮小版でお送りします(特大版じゃないんかーーい)


弊社には、ギルドっていう横軸組織があります。そこの定例で、データ界隈を中心に、関係しそうな話題などを共有しています。

まぁ、おもに私がこれ良さそ〜と思う話題をメモっていてそれを共有しています。
それ、公開しちゃってもいいんじゃね?って思ったので、記事を書いていこうかな〜と思っております。
※テンプレ


今週のデータ界隈のトピック

https://datatech-jp.connpass.com/event/301807/

参加枠 794/800名・・・・すげぇぇぇ

https://no1.connpass.com/event/305664/
参加者が2000人超えとるやないけ・・・・・

https://techplay.jp/event/930024
2024年1月9日 虎ノ門オフライン開催
※タシロもサポートで参加します♪

https://techplay.jp/event/925822
2024年1月30日(火) 13時〜21時
JTUGの総会!2023年の!!!

エンジニアリングマネージャーのお話

https://note.com/dora_e_m/n/ne7e2ad6cf25a

今週のGCP

週間GCPってないの?
だれか!だれか!!!!!
( g-genさんが私のGCPの情報源です!いつもありがとうございます!!!!)

今週のAWS

週間AWSはお休み

今週のAzure

https://ikuty.com/2024/01/04/azure-functions-matome/
ほぼ同僚(親会社、同好の士)の生田さんの記事
Snowflakeの勉強ブログもすごくよいのですが・・・・年末年始の勉強の題材のAzure選んだんだろうな〜

https://zenn.dev/sasashun/articles/c1955f36bc9683
Microsoft Learn がいいんだよ・・・・ってのを、年末年始で観測しましたが、いまいち整理されてないんだよなァァァという、弊社同僚の叫びもあったことをここに記させていただきます。

今週のSnowflake

https://db-engines.com/en/ranking

Accessを抜いて、9位になりましたね!!!
ただ database of the YearはPostgreSQLだったようで、3年連続?の受賞はならなかった・・・かな?

https://qiita.com/fkdfkdfkd/items/9beed523b58e163c8671

  • SHOW系の結果にクエリしたい

これやりたいですよね!

SHOW GRANTS TO ROLE TESTROLE;
SELECT "name" FROM TABLE(RESULT_SCAN(LAST_QUERY_ID()))
WHERE "granted_on" = 'ROLE';

result_scanとlast_query_idを使うのが味噌ですよね
UDFの中とかでよく使います

https://blog.infostrux.com/the-unofficial-snowflake-monthly-release-notes-december-2023-da4f6216c5d6

こういうのをやりたいんですよね・・・・・今年は
とくに「Deep Dive of the Month(今月のディープダイブ)」

コンテナ・サービスはなぜ大きな意味を持つのか?Snowflakeはデータ周りの完全なプラットフォームになるための旅を続けており、2023年はそれが深刻な競争相手になることを証明し続ける素晴らしい年だった。このリリースでは、データ上に完全なKubernetesマネージドサービスが提供されるため、コンピューティングロジックにフルアクセスするためにデータをコピーする必要がなくなる

今週のセキュリティ

https://www.itmedia.co.jp/news/articles/2312/11/news172.html
sansanさんすげーーー
高校のをちゃんとやるってほんとすごい(どれだけお金がかかってるかも気になる)
さながら映画ミッションインポッシブルみたい!

今週のデータモデリング

dbt

https://knowledge.insight-lab.co.jp/bi/dbtcloud-and-dbtcore?utm_content=276970136&utm_medium=social&utm_source=twitter&hss_channel=tw-2290369405

dbtには、OSS版の dbtCore と SaaS版の dbtCloud がありますが、その2つをハイブリットでつかったらいいんでね?というお話。
dbt Tokyo でもいっとき話が出ていた話題だった記憶があります
dbt自体は複数ユーザで開発
ただ、dbtCloudには色々利点(実行環境であったり、スケジューラーであったり)があるので、そこをうまく使うという・・・・これはコストコントロール的にもとても良いですねーー

今週のデータインジェスト

Airbyte

https://techblog.zozo.com/entry/airbyte-on-gke

今週のML/AI

LLM

https://twitter.com/ai_database/status/1742164772798582998

LLMの内部状態を観察することで「出力がハルシネーションか否かを判別する」手法が開発されたとのことです。

報告によると、実験では96%以上の精度で識別できたとされています。

手法の名称は『LLMファクトスコープ』と付けられています。

"LLM Factoscope: Uncovering LLMs' Factual Discernment through Inner States Analysis"より

■LLMファクトスコープの概要
1. シャムネットワークを活用
2. LLMの内部状態を分析
※シャムネットワーク(Siamese Network):
出力の類似度を判断するためのニューラルネット

■実験と結果
1. Llama2、VicunaなどのLLMを使用
2. 特定データセットと事実確認プロンプトで出力
3. LLMの内部状態から、事実かを判断
4. 出力が事実なのかを96%以上の精度で識別した

→ハルシネーションの検出手法として有望と判断

ただし、本手法で識別できるのはデータセットに対する出力の整合性です。
そのため、厳密な意味で出力の事実性を保証するためには、外部情報と照合する必要があることには注意が必要です。

https://speakerdeck.com/minorun365/sheng-cheng-aizhou-hui-chi-rekiyatutiatuhumian-qiang-hui
みのるんさんが2023年GWあたりにやった内容だそうな
これで改めてキャッチアップしておきたいですね

その他

diffastic

$ brew install difftastic

https://github.com/Wilfred/difftastic?tab=readme-ov-file

$ export GIT_EXTERNAL_DIFF=/opt/homebrew/bin/difft

すればgit diffでそのまま使える

ちゅらデータ株式会社

Discussion