🐙

出版記念セミナー: AI活用成熟度と機械学習デザインパターン詳説

2021/11/12に公開

概要

2021/11/10に開催された下記勉強会のメモです

こちらの本の出版記念セミナーです
特定のプラットフォームによらないベクトプラクティスをまとめたものになっています
https://www.amazon.co.jp/dp/4873119561/

プログラム

オープニング、機械学習デザインパターンの必要性と機械学習ライフサイクル

機械学習とは（分類）
さまざまな役割の共同
機械学習ライフサイクル
- 発見・探索・→開発→デプロイ
機械学習によるパラダイム変換
- 従来：演繹的（モデルが最初に与えられる）
- 機械学習ベース：帰納的（モデル・アルゴリズムがデータで決まる）

データ表現のパターン

特徴量ハッシュ
埋め込み
特徴量クロス
マルチモーダル入力

問題表現のパターン

問題再設定
- 回帰問題→分類問題、分類問題→回帰問題として捉え直す
マルチラベル
アンサンブル学習
カスケード
中立クラス
- 起きる、起きない、に加えて「おそらく起きる」＝中立クラスを導入する
リバランシング
- 適切な評価指標の選択
- 訓練データの調整

モデル訓練のパターン

価値ある過学習
チェックポイント
転移学習
- 大規模データで訓練した汎用モデルを小規模データの専門タスクに適用
- 汎用モデルの最終層を取り除き前段とし、後段を訓練
分散戦略
- データ並列化
  - 同期訓練
  - 非同期訓練
ハイパーパラメターチューニング

対応性のある運用のパターン

ステートレスサービング関数
バッチサービング
継続的モデル評価
- デプロイ後にモデルが劣化
  - コンセプトドリフト：例）クレジットカードIC化
  - データドリフト：例）ある体重を肥満とみなすかが時代により変化
- 再訓練のトリガー、訓練間隔の推定、etc...
2段階予測
- 問題を2つにわけで2つのモデルをデプロイ
  - 例）Google Home
    - デバイス上にウェイクワード「OK　Google」だけを聞き取るモデル
    - クラウド上に音声認識と自然言語処理を必要とする複雑なモデル
キー付き予測

再現性のパターン

変換
- 同じ変換でなければ誤った推論になる
  - 訓練時に月曜始まりを3としてたのに運用時に4
繰り返し可能な分割
- データセットをランダムで訓練、検証、テストに分割
  - 後から再現できない
スキーマブリッジ
- 決済システムがアップグレードして種類が増える
  - カード→ギフトカード、デビットカード、クレジットカードに分割
  - 新しい形式に変換して出現確率で書き換え
  - 新しいサンプルだけでは性能が悪い
    - 古いサンプルはできるだけ少なく、新しいサンプルも加えて訓練
ウィンドウ推論
- 時間によって異常かどうか変わる場合
- スライディングウィンドウ
  - 10分ごとに2時間分のデータを特徴量に→2時間分で訓練・推論→10分刻み2時間のデータで訓練・推論
- 計算オーバーヘッドが大きく高スループットが必要
ワークフローパイプライン
特徴量ストア
モデルバージョニング

責任あるAIのパターン

経験的ベンチマーク
- モデルの性能がビジネスにどう影響するか
- 単純なベンチマークを利用
- モデルの性能向上を本来の利用価値に変換することが重要
説明可能な予測
- モデルの性能だけで本番利用の判断が難しいもの
  - 医療における疾患の予測
- その予測に至った理由に関係する情報の提供
  - 各特徴量の係数
  - 特徴量の寄与度を計算
- モデルの説明への過度な信頼には注意が必要
公平性レンズ
- データセットは人間が作成しているのでバイアスが存在
  - 有害なバイアスの領域を特定
  - 訓練済みモデルを公平な目で評価
  - 公平性と説明性の混同に注意

パターンのつながりとAI活用成熟度

パターンのつながり
AI活用成熟度
- 手動開発
- パイプラインの活用
- 完全に自動化されたプロセス

質疑

オライリーの本で初学者におすすめのものは？

以下が有名どころだと思います
https://www.amazon.co.jp/dp/4873117984
https://www.amazon.co.jp/dp/487311845X
https://www.amazon.co.jp/dp/4873117585

Discussion