🌊

[週次報告] 第3回 Team Kuma

2024/04/15に公開

LLM

tech

週次報告0411

チーム名 kuma
日時 0411

開発テーマ・概要

PR-MoEのような、MoEの構造のモデルの学習をする
商用利用可能な良質なデータセットの作成

チーム全体の開発状況

事前学習用のデータ準備途中
バックアップ用のモデルに関して動作検証概ね終了
MegablockベースのMoEのコードを作成中

サブチームからの情報共有

データチーム

事前学習用のデータ準備(マイルストーンを参照)

モデルチーム

バックアップ用のdenseモデル
- 順調に開発が進み、動作確認が概ね完了した
MoE用のモデル
- 以前まで使用していたコードがライセンスの関係上使用が難しくなった
- Megablockベースのコードを作成、動作が確認できたので、並列化の設定や、追加実装必要な箇所を実装していく

評価チーム

SFT用のデータ準備(マイルストーンを参照)

開発のマイルストーン

データ準備
- データチーム:
  - 日本語事前学習データ100Bトークンの準備: 〜4/22
    - データセットの選定: 〜4/15
    - データセットの前処理: 〜4/20
    - データセットのindex処理: 〜4/21
  - 英語事前学習データ150Bトークンの準備: 〜4/22
    - データセットの選定: 〜4/15
    - データセットの前処理: 〜4/20
    - データセットのindex処理: 〜4/21
- 評価チーム:
  - 事後学習データセットの準備: 〜4/22
    - SFT & DPO 選定: 概ね完了済み
    - SFT & DPO: フィルタリングとArgillaを介した加工（事後学習データ 10k 程度を想定して加工はLLMと人力を想定）
    - SFT & DPO: ライセンスを加味した上で日本語翻訳（必要なものを対象にLLMの活用を想定）
モデル学習コード準備
- トークナイザー
  - 完成
- Mixtral(ライブラリ:moe-recipe, 並列化:zero3)
  - 必要な機能は実装済み
  ライセンスが付いていない、ライブラリのため使用が難しい事が判明
- Llama2(ライブラリ: megatron-deepspeed)
  - 概ね実装済み
  - 並列化の部分が途中
  - 余裕があればskip batchなど取り入れたい
- Mixtral(ライブラリ: Megablocks, 並列化 3D パラレル ,dmoe , llamaベース )
  - flash attnが反映されていない
  - データ取り込みの部分の精査が必要
  - wandbへのlogの実装が必要
  - huggingfaceチェックポイントへの変換コードの実装が必要
シングルGPUでの稼働確認、実績
- モデルチーム:
  - Mixtral(ライブラリ:moe-recipe, 並列化:zero3)
    - 学習確認
    - 再学習確認
    - wandb連携確認
    - huggingface変換確認
    ライセンスが付いていない、ライブラリのため使用が難しい事が判明
  - Llama2(ライブラリ: megatron-deepspeed)
    - 学習確認
    - 再学習確認
    - wandb連携確認
    - huggingface変換確認
  - Mixtral(ライブラリ: Megablocks, 並列化 3D パラレル )
    - 学習確認
    - マルチGPU動作確認
- 評価チーム:
  - denseモデルとMoEモデルのLM-Evaluation-Harness評価
    - rinnaモデルで確認済み
    - モデルチーム作成のMoEモデルで確認中（エラーが発生しており対処中）
マルチノードでの稼働確認、実績
- モデルチーム:現在利用できないため停止中
- 評価・チューニングチーム: 現在利用できないため停止中
うまくいきそうか計画の確信度
- メインで使用していたコードがライセンスが付いていないものを参照していて、困ったがMoEの新しい実装が動き見込みができた

週次報告0411

開発テーマ・概要

チーム全体の開発状況

サブチームからの情報共有

データチーム

モデルチーム

評価チーム

開発のマイルストーン

Discussion