🐙

出版記念セミナー: AI活用成熟度と機械学習デザインパターン詳説

2021/11/12に公開

概要

2021/11/10に開催された下記勉強会のメモです
https://smartse.connpass.com/event/227908/

こちらの本の出版記念セミナーです
特定のプラットフォームによらないベクトプラクティスをまとめたものになっています
https://www.amazon.co.jp/dp/4873119561/

プログラム

オープニング、機械学習デザインパターンの必要性と機械学習ライフサイクル

  • 機械学習とは(分類)
  • さまざまな役割の共同
  • 機械学習ライフサイクル
    • 発見・探索・→開発→デプロイ
  • 機械学習によるパラダイム変換
    • 従来:演繹的(モデルが最初に与えられる)
    • 機械学習ベース:帰納的(モデル・アルゴリズムがデータで決まる)

データ表現のパターン

  • 特徴量ハッシュ
  • 埋め込み
  • 特徴量クロス
  • マルチモーダル入力

問題表現のパターン

https://www.slideshare.net/secret/1UKwrzNui53jqt

  • 問題再設定
    • 回帰問題→分類問題、分類問題→回帰問題として捉え直す
  • マルチラベル
  • アンサンブル学習
  • カスケード
  • 中立クラス
    • 起きる、起きない、に加えて「おそらく起きる」=中立クラスを導入する
  • リバランシング
    • 適切な評価指標の選択
    • 訓練データの調整

モデル訓練のパターン

  • 価値ある過学習
  • チェックポイント
  • 転移学習
    • 大規模データで訓練した汎用モデルを小規模データの専門タスクに適用
    • 汎用モデルの最終層を取り除き前段とし、後段を訓練
  • 分散戦略
    • データ並列化
      • 同期訓練
      • 非同期訓練
  • ハイパーパラメターチューニング

対応性のある運用のパターン

  • ステートレスサービング関数
  • バッチサービング
  • 継続的モデル評価
    • デプロイ後にモデルが劣化
      • コンセプトドリフト:例)クレジットカードIC化
      • データドリフト:例)ある体重を肥満とみなすかが時代により変化
    • 再訓練のトリガー、訓練間隔の推定、etc...
  • 2段階予測
    • 問題を2つにわけで2つのモデルをデプロイ
      • 例)Google Home
        • デバイス上にウェイクワード「OK Google」だけを聞き取るモデル
        • クラウド上に音声認識と自然言語処理を必要とする複雑なモデル
  • キー付き予測

再現性のパターン

  • 変換
    • 同じ変換でなければ誤った推論になる
      • 訓練時に月曜始まりを3としてたのに運用時に4
  • 繰り返し可能な分割
    • データセットをランダムで訓練、検証、テストに分割
      • 後から再現できない
  • スキーマブリッジ
    • 決済システムがアップグレードして種類が増える
      • カード→ギフトカード、デビットカード、クレジットカードに分割
      • 新しい形式に変換して出現確率で書き換え
      • 新しいサンプルだけでは性能が悪い
        • 古いサンプルはできるだけ少なく、新しいサンプルも加えて訓練
  • ウィンドウ推論
    • 時間によって異常かどうか変わる場合
    • スライディングウィンドウ
      • 10分ごとに2時間分のデータを特徴量に→2時間分で訓練・推論→10分刻み2時間のデータで訓練・推論
    • 計算オーバーヘッドが大きく高スループットが必要
  • ワークフローパイプライン
  • 特徴量ストア
  • モデルバージョニング

責任あるAIのパターン

https://www.slideshare.net/secret/vi2lB6xUpdr76o

  • 経験的ベンチマーク
    • モデルの性能がビジネスにどう影響するか
    • 単純なベンチマークを利用
    • モデルの性能向上を本来の利用価値に変換することが重要
  • 説明可能な予測
    • モデルの性能だけで本番利用の判断が難しいもの
      • 医療における疾患の予測
    • その予測に至った理由に関係する情報の提供
      • 各特徴量の係数
      • 特徴量の寄与度を計算
    • モデルの説明への過度な信頼には注意が必要
  • 公平性レンズ
    • データセットは人間が作成しているのでバイアスが存在
      • 有害なバイアスの領域を特定
      • 訓練済みモデルを公平な目で評価
      • 公平性と説明性の混同に注意

パターンのつながりとAI活用成熟度

  • パターンのつながり
  • AI活用成熟度
    • 手動開発
    • パイプラインの活用
    • 完全に自動化されたプロセス

質疑

オライリーの本で初学者におすすめのものは?

以下が有名どころだと思います
https://www.amazon.co.jp/dp/4873117984
https://www.amazon.co.jp/dp/487311845X
https://www.amazon.co.jp/dp/4873117585

Discussion