🗒️
24/09/02 ~ 24/09/08 Weekly Report
はじめに
この一週間に学んだ内容や私生活について、備忘録として残していこうと思います。
Input
Books
Pythonで学ぶ効果検証入門
1.読了。「(効果検証入門)[https://gihyo.jp/book/2020/978-4-297-11117-5]」の内容をそのままに、実践的なビジネス適応に向けて厚みを持たせており、参考になった。
あくまで入門書の位置付けであるため、さまざまなケースにおいて効果検証を適応するためにはさらに理解を深めていく必要があると感じた。
-
5章 Regression Discontinuity Designを用いて効果検証を行う
-
Regression Discontinuity Design: RDD(回帰不連続デザイン)は、明確なルールに基づいて実施される施策の効果を分析する手法
- 閾値近くの「同質な」ユーザーを用いて比較する」手法
- Sharp RDD: ルールによって施策が必ず割り当てられる設定。閾値における平均処置効果を推定している
- McCraryの検定: RDDの過程が成立しているか検証する方法。似た手法としてバランステストがある。
- Fuzzy RDD: 処置確率が閾値において不連続に変化する場合のRDD。コンプライアンスなサンプルに対する施策効果として解釈可能。推定には二段階最小二乗法を用いる(ライブラリで実装可能)。
-
Regression Discontinuity Design: RDD(回帰不連続デザイン)は、明確なルールに基づいて実施される施策の効果を分析する手法
A/Bテスト実践ガイド 真のデータドリブンへ至る信用できる実験とは
2.-
第5章:スピードの重要性を示すケーススタディ
- ウェブサイトやアプリケーションのパフォーマンス、特に速度がユーザーエクスペリエンスに大きな影響を与え、ビジネスの主要な指標に影響する可能性。
- パフォーマンスと主要指標の関係は、現時点のパフォーマンス値を中心とした局所的な線形近似で表されることが多く、わずかな速度低下の影響を測定することで、速度向上の影響を推測可能。
- ウェブサイトのパフォーマンス測定には、サーバー間の同期、正確なタイミング測定、地理的なネットワークの違いなど、複雑な要素が絡む。
-
第6章:組織を運用するためのメトリクス
- データ駆動型の組織では、目標設定、意思決定、説明責任においてメトリクスが重要な役割を果たす。
- メトリクスは、組織の最終的な目標を表す「ゴールメトリクス」、ゴール達成を促進する要因を測定する「ドライバーメトリクス」、ビジネスの健全性を維持するための重要な制約を表す「ガードレールメトリクス」に分類。
- 効果的なメトリクスは、明確に定義され、測定可能で、関連性が高く、組織の目標と整合性があり、進化の可能性を持つ。
-
第7章:実験のためのメトリクスとOEC
- 実験では、ビジネス全体に適用可能な、明確で測定可能、制御可能で、組織にとって重要な単一の評価指標「全体的な評価基準(OEC)」の定義が重要。
- OECは、実験結果を評価するための明確な枠組みを提供し、チーム間で目標を調整し、意思決定の改善に寄与。
- ビジネス目標を測定可能な実験メトリクスに変換するためには、考慮事項と潜在的な落とし穴の理解が不可欠。
-
第8章:インスティテューショナルメモリとメタアナリシス
- 「インスティテューショナルメモリ」とは、実験の記録を保存し、そこから得られた教訓を収集することを指す。過去の意思決定の理解や、将来の仮説の立案、実験文化の育成に貢献。
- 過去の実験のメタアナリシスは、実験文化の促進、意思決定の改善、プラットフォームの改善、メトリクスの理解、落とし穴の回避に役立つ。
-
第9章:コントロール実験の倫理
- コントロール実験、特にユーザーに影響を与える実験には、倫理的な考慮事項が不可欠。
- ユーザーへのリスクとベネフィットのバランス、インフォームドコンセントの確保、プライバシー保護、透明性の維持が求められる。
-
第10章:オンラインでのコントロール実験の補完手法
- コントロール実験は強力な手法だが、ユーザーエクスペリエンスの理解や仮説の生成、意思決定の導き出しには、他の補完的な方法が必要。
- ログデータ分析、ユーザー調査、専門家による評価、フォーカスグループ、アンケート、外部データなどの補完的な手法は、コントロール実験では得られない貴重な情報を提供。
[試して理解]Linuxのしくみ
3.読了。ソースコードを動かしつつ流し見程度で読み進めた。
当初はクラウドのカーネル操作で参考になるかと思い購入したが、サーバー管理や運用向けのコマンド操作などがメインで、想定していた内容と違った。
完全にインフラ系エンジニア向きの書籍であったので、私は使用機会が少なそうだと感じ、要点だけの理解にとどめた。
MOOC
couseraの動画教材
MLOps | Machine Learning Operations
MLOps領域の一貫した知識習得のため学習。思ったのと違う内容だったので、1/4を終わった時点で保留。
- Python Essential for MLOps
- 修了
Building Cloud Computing Solutions at Scale Specialization
上記コースの内容が望んでいた内容とずれがあったので、こちらを受講。
実践的な内容で手を動かしつつ学べるのでこちらは良さそう。
- Cloud Computing Foundations
- Chap1 ~ 3まで修了
Articles
-
Unlocking Insights with High-Quality Dashboards at Scale
Spotify社内のダッシュボード運用に関するレポート。社内には4000を超えるダッシュボードが存在しており、アクティブ状況などをモニタリングしている。
ダッシュボードを構築するためのチェックリストを作成し、その有用性を評価している。 -
Mastering Dashboard Design: From Good to Unmissable Data Visualizations
ダッシュボードを作成する上で、考慮すべき要点をまとめている。 -
8年間の進化!CARTA MARKETING FIRMが機械学習基盤を刷新した理由とその成果
CARTA MARKETINGの機械学習基盤の変遷。データ基盤周りは常に有用なサービスがローンチされるため、適切な技術選定が重要になる。
常に自社の基盤構成についてボトルネックを特定し、刷新することも含め検討していく必要がある。
prefectはMLOps領域でよく聞くので、一度しっかり調べておこう。 - 会議の進め方 改善ガイドライン
-
uv へ移行 from pyenv & poetry (docker前提)
最近のpython環境はpyenv & poetryで実行しており、参考したい。環境を渡すならやはりdockerのほうが便利だが、手軽なのはpoetryの印象だった。
uv & dockerを使えばパッケージ管理と環境を分離できるとのことなので、ビルドが高速になるとのこと。 - 誰が作成しても1つの構造になるモデリング作成技術
- Machine Learning Operations (MLOps): Overview, Definition, and Architecture
- Embeddings: How to select the right one?
- Redshift Serverless + dbtでデータ品質テストを100倍高速化した話
- はじめに教わるデザインの基本。気をつけるべき28のポイント
Mediadas
Services
-
Napkin.AI
文章からチャートをいい具合に生成する機能を備えたドキュメントサービス。使い勝手も良く生成されるアウトプットのクオリティが高い。
普通に実務で使えるレベルのアウトプットが出るのでこれから重宝しそう。有料化したら課金してしまいそう。 -
Claude for Enterprise
Claudeにエンタープライズ版がローンチされるらしい。ロングコンテキストはもちろんだが、なんといってもGitHubと接続できるのはでかい。
ソースコードを渡せばコード改善をおこなってくれるらしい。使ってみたいがエンプラか... -
Database Answer
あらゆる用途、ドメインにおけるデータモデリングの実装例を管理しているサイト。 -
Arc
以前から気になっていた新進気鋭のプラウザ。去年のProduct of the YearでGPT-4に次ぐ2位となったサービスとのこと。
インストールして使ってみたら、Chromeからの移行が簡単で、直感的操作と利便性を兼ね備えており、体験としていい。
Life
- 今後のキャリアとして必要な知識習得のためにDuke大学のMLOpsコースに参加した。去年ローンチされたばかりの新しいコースで、最近のトレンドも取り入れた包括的コースとなっている。
- 新たに書籍を購入した。
-
データ可視化の基本が全部わかる本
目次の時点で間違いなさそうな内容であったため予約購入していた。実務における可視化本の中ではかなり良書と言えそう。 -
Pythonクイックリファレンス 第4版
データサイエンス系のリファレンス本は多々所有しているが、「Python」における書籍は所有していなかったため購入した。
Pythonで開発を行う上で知っておくべき機能であったり、普段触れない分析以外のPythonコードを知ることができて勉強になる。
リファレンス本があるといざというとき安心しますね。
-
データ可視化の基本が全部わかる本
Discussion