🦁
[週次報告] 第2回 Team Zoo
4月第1週
開発テーマ・概要
- 新しいMoEモデルの作成と検証(モデル1, 2チーム)
- 新しいMoEの学習アルゴリズムの作成と検証(学習アルゴリズムチーム)
- コーパスの自動作成(自動コーパスチーム)
チーム全体の開発状況
- モデル1, 2は小規模での実験を続行
- 学習アルゴリズムについてはTokenizerの学習に関する調査を実施
- コーパスについては調査及びフィルタリングパイプライン構築を実施
サブチームからの情報共有
開発基盤
- やったこと
- Tokenizerの学習に関する調査
- 分かったこと
- 次やること
- 分散環境への移植の検討・フォロー
自動コーパス
- やったこと
- コーパスの調査
- 日本語データのフィルタリングパイプラインの構築
- 分かったこと
- CC-100等、大きな日本語データは一定度見つかりそう
- 一方、有害なデータや重複等、大規模なフィルタが必要→フィルタリングパイプラインは作成済み
- 英語データに関しては、日本語に文脈が合わないと思われるもの(ex.欧米の文化的背景を強く踏まえたもの)をフィルタする必要あり
- 次やること
- コーパスの作成
- 日本語データのフィルタリング実行
- ASK-LLMを用いた日本語LLMのPretraining用英語コーパスの作成
学習アルゴリズム
- やったこと
- 40Gデータ準備
- 小さいサイズのデータでの0.1B事前学習動作
- merge script作成/動作良さそう
- 分かったこと
- 事前学習のパラメタの選定
- megatron-deepspeedでのfinetuningのハイパラやコード
- huggingfaceでのfinetuningのハイパラやコード
- load balancing lossについて
- 次やること
- 0.1B実験スタート
モデル1
- やったこと
- 現在のモデルをMegatoron-DeepSpeed上に移植
- SMoEモデルをMegatron−LMを使用してGCP上への移植調査、環境構築
- 分かったこと
- ABEJYAさんのMegatron−LMのコードが公開になる
- 現在のGCP環境上では、sudoが使えないのでDockerが動かない。
- 次やること
- Megatrron−DeepSpeed上の現在のモデルをGCP上でpipインストールできるようにし、動作確認。
- 最新のバージョンをMegatrron-DeepSpeedとABEJYAさんのMegatron−LMのバージョンに移植して、動作確認。
- トークナイザーの調査、作成。
モデル2
- やったこと
- 現在計画している各アーキテクチャ構造での小規模データ実験
- Megatron-DeepSpeed上でSparsMoEを実装するうえでの課題整理
- 分かったこと
- 小規模データでは安定的に既存MoEを上回る性能及び低計算負荷を実現できることを確かめられた
- Megatron-DeepSpeed上でSparseMoEを一から実装するのには莫大な工数がかかることを把握
- 次やること
- 現在予定しているアーキテクチャでのハイパーパラメータ探索を完了させる
- Megatron-LMのMixtralを上記アーキテクチャに改修
Discussion