🐈
[週次報告] 第1回 Team Zoo
開発テーマ・概要
- 新しいMoEモデルの作成と検証(モデル1, 2チーム)
- 新しいMoEの学習アルゴリズムの作成と検証(学習アルゴリズムチーム)
- コーパスの自動作成(自動コーパスチーム)
チーム全体の開発状況
- モデル1, 2は小規模での実験を行った
- 学習アルゴリズムについては環境構築中
- コーパスについても検討、前処理に向けて進行中
サブチームからの情報共有
開発基盤
- やったこと
- 各チームの状況と今後の大枠の計画の整理
- 分かったこと
- Tokenizerの訓練が必要であること
- MoEの分散環境構築に工数がかかりそうであること
- 次やること
- 各チームの状況の確認
- 4月以降のモデル、アルゴリズムチームのコードの統合の準備
自動コーパス
- やったこと
- 事前学習のためのコーパスの検討/文献調査
- コーパス前処理に関する文献調査とテスト環境整備
- 分かったこと
- 必要コーパスの量の決定とその種類について仮決定
- コーパス前処理コードの処理と実行の確認
- 次やること
- コーパスの分類のためのアルゴリズムの検討
- コーパスのカテゴリに応じた既存データの利用可能性の検討
- コーパス前処理コードに関する追加調査と処理内容の確立
- 前処理済みのコーパスの提供準備
学習アルゴリズム
- やったこと
- プレ環境の構築
- 事前学習のデモ
- 分かったこと
- プレ環境の様子
- tokenizerの決定
- 事前学習/FT用のデータセットの決定
- 事前学習に必要な準備
- 次やること
- 事前学習のコードの調査/準備
- 事前学習/FT用のデータセットの準備
- merge scriptの作成
モデル1
- やったこと
- SparseMoEにDeepSetsを埋め込んだモデルの作成、任意のexpert数に対応
- skip connectionの機能追加
- DeepSpeed上へのDeepSetsモデルの移植
- 松尾研のGCP環境への移植
- 分かったこと
- DeepSetsのみだと、Lossが既存のモデルより下がらない。
- スキップコネクションの導入とphi,rhoの隠れ層の調整により、denseモデルよりわずかに良い結果に調整できる。
- 現状、DeepSetsの寄与がすくない。
- 次やること
- 松尾研のGCP環境でのデバック作業
- 既存のコーパスでの学習
- DeepSetsを機能させる学習方法等検討
- モデル固定でデータのカテゴライズによる差分
モデル2
- やったこと
- 並列処理なしの基本実装によるSMoEの実験
- DeepSpeed上でSMoEを実行するためのサーベイ
- 分かったこと
- 現在計画中のモデルアーキテクチャでdenseモデルの性能を上回る見通し
- DeepSpeed上でMoEを動かす場合、パイプライン機能が対応していない
- 次やること
- 現在の実験用実装コードのうち、ベース論文と一致していない部分を完成させる
- DeepSpeedのサーベイ・改修を続行する
Discussion