🌊
[週次報告] 第3回 Team Kuma
週次報告0411
- チーム名 kuma
- 日時 0411
開発テーマ・概要
- PR-MoEのような、MoEの構造のモデルの学習をする
- 商用利用可能な良質なデータセットの作成
チーム全体の開発状況
- 事前学習用のデータ準備途中
- バックアップ用のモデルに関して動作検証概ね終了
- MegablockベースのMoEのコードを作成中
サブチームからの情報共有
データチーム
- 事前学習用のデータ準備(マイルストーンを参照)
モデルチーム
- バックアップ用のdenseモデル
- 順調に開発が進み、動作確認が概ね完了した
- MoE用のモデル
- 以前まで使用していたコードがライセンスの関係上使用が難しくなった
- Megablockベースのコードを作成、動作が確認できたので、並列化の設定や、追加実装必要な箇所を実装していく
評価チーム
- SFT用のデータ準備(マイルストーンを参照)
開発のマイルストーン
-
データ準備
- データチーム:
- 日本語事前学習データ100Bトークンの準備: 〜4/22
- データセットの選定: 〜4/15
- データセットの前処理: 〜4/20
- データセットのindex処理: 〜4/21
- 英語事前学習データ150Bトークンの準備: 〜4/22
- データセットの選定: 〜4/15
- データセットの前処理: 〜4/20
- データセットのindex処理: 〜4/21
- 日本語事前学習データ100Bトークンの準備: 〜4/22
- 評価チーム:
- 事後学習データセットの準備: 〜4/22
- SFT & DPO 選定: 概ね完了済み
- SFT & DPO: フィルタリングとArgillaを介した加工 (事後学習データ 10k 程度を想定して加工はLLMと人力を想定)
- SFT & DPO: ライセンスを加味した上で日本語翻訳(必要なものを対象にLLMの活用を想定)
- 事後学習データセットの準備: 〜4/22
- データチーム:
-
モデル学習コード準備
-
トークナイザー
- 完成
-
Mixtral(ライブラリ:moe-recipe, 並列化:zero3)
- 必要な機能は実装済み
ライセンスが付いていない、ライブラリのため使用が難しい事が判明
-
Llama2(ライブラリ: megatron-deepspeed)
- 概ね実装済み
- 並列化の部分が途中
- 余裕があればskip batchなど取り入れたい
-
Mixtral(ライブラリ: Megablocks, 並列化 3D パラレル ,dmoe , llamaベース )
- flash attnが反映されていない
- データ取り込みの部分の精査が必要
- wandbへのlogの実装が必要
- huggingfaceチェックポイントへの変換コードの実装が必要
-
-
シングルGPUでの稼働確認、実績
- モデルチーム:
-
Mixtral(ライブラリ:moe-recipe, 並列化:zero3)
- 学習確認
- 再学習確認
- wandb連携確認
- huggingface変換確認
ライセンスが付いていない、ライブラリのため使用が難しい事が判明
-
Llama2(ライブラリ: megatron-deepspeed)
- 学習確認
- 再学習確認
- wandb連携確認
- huggingface変換確認
-
Mixtral(ライブラリ: Megablocks, 並列化 3D パラレル )
- 学習確認
- マルチGPU動作確認
-
- 評価チーム:
- denseモデルとMoEモデルのLM-Evaluation-Harness評価
- rinnaモデルで確認済み
- モデルチーム作成のMoEモデルで確認中(エラーが発生しており対処中)
- denseモデルとMoEモデルのLM-Evaluation-Harness評価
- モデルチーム:
-
マルチノードでの稼働確認、実績
- モデルチーム:現在利用できないため停止中
- 評価・チューニングチーム: 現在利用できないため停止中
-
うまくいきそうか計画の確信度
- メインで使用していたコードがライセンスが付いていないものを参照していて、困ったがMoEの新しい実装が動き見込みができた
Discussion