🐈

[週次報告] 第1回 Team Zoo

2024/03/28に公開

開発テーマ・概要

  • 新しいMoEモデルの作成と検証(モデル1, 2チーム)
  • 新しいMoEの学習アルゴリズムの作成と検証(学習アルゴリズムチーム)
  • コーパスの自動作成(自動コーパスチーム)

チーム全体の開発状況

  • モデル1, 2は小規模での実験を行った
  • 学習アルゴリズムについては環境構築中
  • コーパスについても検討、前処理に向けて進行中

サブチームからの情報共有

開発基盤

  • やったこと
    • 各チームの状況と今後の大枠の計画の整理
  • 分かったこと
    • Tokenizerの訓練が必要であること
    • MoEの分散環境構築に工数がかかりそうであること
  • 次やること
    • 各チームの状況の確認
    • 4月以降のモデル、アルゴリズムチームのコードの統合の準備

自動コーパス

  • やったこと
    • 事前学習のためのコーパスの検討/文献調査
    • コーパス前処理に関する文献調査とテスト環境整備
  • 分かったこと
    • 必要コーパスの量の決定とその種類について仮決定
    • コーパス前処理コードの処理と実行の確認
  • 次やること
    • コーパスの分類のためのアルゴリズムの検討
    • コーパスのカテゴリに応じた既存データの利用可能性の検討
    • コーパス前処理コードに関する追加調査と処理内容の確立
    • 前処理済みのコーパスの提供準備

学習アルゴリズム

  • やったこと
    • プレ環境の構築
    • 事前学習のデモ
  • 分かったこと
    • プレ環境の様子
    • tokenizerの決定
    • 事前学習/FT用のデータセットの決定
    • 事前学習に必要な準備
  • 次やること
    • 事前学習のコードの調査/準備
    • 事前学習/FT用のデータセットの準備
    • merge scriptの作成

モデル1

  • やったこと
    • SparseMoEにDeepSetsを埋め込んだモデルの作成、任意のexpert数に対応
    • skip connectionの機能追加
    • DeepSpeed上へのDeepSetsモデルの移植
    • 松尾研のGCP環境への移植
  • 分かったこと
    • DeepSetsのみだと、Lossが既存のモデルより下がらない。
    • スキップコネクションの導入とphi,rhoの隠れ層の調整により、denseモデルよりわずかに良い結果に調整できる。
    • 現状、DeepSetsの寄与がすくない。
  • 次やること
    • 松尾研のGCP環境でのデバック作業
    • 既存のコーパスでの学習
    • DeepSetsを機能させる学習方法等検討
    • モデル固定でデータのカテゴライズによる差分

モデル2

  • やったこと
    • 並列処理なしの基本実装によるSMoEの実験
    • DeepSpeed上でSMoEを実行するためのサーベイ
  • 分かったこと
    • 現在計画中のモデルアーキテクチャでdenseモデルの性能を上回る見通し
    • DeepSpeed上でMoEを動かす場合、パイプライン機能が対応していない
  • 次やること
    • 現在の実験用実装コードのうち、ベース論文と一致していない部分を完成させる
    • DeepSpeedのサーベイ・改修を続行する

Discussion