🐙
出版記念セミナー: AI活用成熟度と機械学習デザインパターン詳説
概要
2021/11/10に開催された下記勉強会のメモです
こちらの本の出版記念セミナーです
特定のプラットフォームによらないベクトプラクティスをまとめたものになっています
プログラム
オープニング、機械学習デザインパターンの必要性と機械学習ライフサイクル
- 機械学習とは(分類)
- さまざまな役割の共同
- 機械学習ライフサイクル
- 発見・探索・→開発→デプロイ
- 機械学習によるパラダイム変換
- 従来:演繹的(モデルが最初に与えられる)
- 機械学習ベース:帰納的(モデル・アルゴリズムがデータで決まる)
データ表現のパターン
- 特徴量ハッシュ
- 埋め込み
- 特徴量クロス
- マルチモーダル入力
問題表現のパターン
-
問題再設定
- 回帰問題→分類問題、分類問題→回帰問題として捉え直す
- マルチラベル
- アンサンブル学習
- カスケード
-
中立クラス
- 起きる、起きない、に加えて「おそらく起きる」=中立クラスを導入する
-
リバランシング
- 適切な評価指標の選択
- 訓練データの調整
モデル訓練のパターン
- 価値ある過学習
- チェックポイント
-
転移学習
- 大規模データで訓練した汎用モデルを小規模データの専門タスクに適用
- 汎用モデルの最終層を取り除き前段とし、後段を訓練
-
分散戦略
- データ並列化
- 同期訓練
- 非同期訓練
- データ並列化
- ハイパーパラメターチューニング
対応性のある運用のパターン
- ステートレスサービング関数
- バッチサービング
-
継続的モデル評価
- デプロイ後にモデルが劣化
- コンセプトドリフト:例)クレジットカードIC化
- データドリフト:例)ある体重を肥満とみなすかが時代により変化
- 再訓練のトリガー、訓練間隔の推定、etc...
- デプロイ後にモデルが劣化
-
2段階予測
- 問題を2つにわけで2つのモデルをデプロイ
- 例)Google Home
- デバイス上にウェイクワード「OK Google」だけを聞き取るモデル
- クラウド上に音声認識と自然言語処理を必要とする複雑なモデル
- 例)Google Home
- 問題を2つにわけで2つのモデルをデプロイ
- キー付き予測
再現性のパターン
-
変換
- 同じ変換でなければ誤った推論になる
- 訓練時に月曜始まりを3としてたのに運用時に4
- 同じ変換でなければ誤った推論になる
-
繰り返し可能な分割
- データセットをランダムで訓練、検証、テストに分割
- 後から再現できない
- データセットをランダムで訓練、検証、テストに分割
-
スキーマブリッジ
- 決済システムがアップグレードして種類が増える
- カード→ギフトカード、デビットカード、クレジットカードに分割
- 新しい形式に変換して出現確率で書き換え
- 新しいサンプルだけでは性能が悪い
- 古いサンプルはできるだけ少なく、新しいサンプルも加えて訓練
- 決済システムがアップグレードして種類が増える
-
ウィンドウ推論
- 時間によって異常かどうか変わる場合
- スライディングウィンドウ
- 10分ごとに2時間分のデータを特徴量に→2時間分で訓練・推論→10分刻み2時間のデータで訓練・推論
- 計算オーバーヘッドが大きく高スループットが必要
- ワークフローパイプライン
- 特徴量ストア
- モデルバージョニング
責任あるAIのパターン
-
経験的ベンチマーク
- モデルの性能がビジネスにどう影響するか
- 単純なベンチマークを利用
- モデルの性能向上を本来の利用価値に変換することが重要
-
説明可能な予測
- モデルの性能だけで本番利用の判断が難しいもの
- 医療における疾患の予測
- その予測に至った理由に関係する情報の提供
- 各特徴量の係数
- 特徴量の寄与度を計算
- モデルの説明への過度な信頼には注意が必要
- モデルの性能だけで本番利用の判断が難しいもの
-
公平性レンズ
- データセットは人間が作成しているのでバイアスが存在
- 有害なバイアスの領域を特定
- 訓練済みモデルを公平な目で評価
- 公平性と説明性の混同に注意
- データセットは人間が作成しているのでバイアスが存在
パターンのつながりとAI活用成熟度
- パターンのつながり
- AI活用成熟度
- 手動開発
- パイプラインの活用
- 完全に自動化されたプロセス
質疑
オライリーの本で初学者におすすめのものは?
以下が有名どころだと思います
Discussion