🌊

[週次報告] 第3回 Team Kuma

2024/04/15に公開

週次報告0411

  • チーム名 kuma
  • 日時 0411

開発テーマ・概要

  • PR-MoEのような、MoEの構造のモデルの学習をする
  • 商用利用可能な良質なデータセットの作成

チーム全体の開発状況

  • 事前学習用のデータ準備途中
  • バックアップ用のモデルに関して動作検証概ね終了
  • MegablockベースのMoEのコードを作成中

サブチームからの情報共有

データチーム

  • 事前学習用のデータ準備(マイルストーンを参照)

モデルチーム

  • バックアップ用のdenseモデル
    • 順調に開発が進み、動作確認が概ね完了した
  • MoE用のモデル
    • 以前まで使用していたコードがライセンスの関係上使用が難しくなった
    • Megablockベースのコードを作成、動作が確認できたので、並列化の設定や、追加実装必要な箇所を実装していく

評価チーム

  • SFT用のデータ準備(マイルストーンを参照)

開発のマイルストーン

  • データ準備

    • データチーム:
      • 日本語事前学習データ100Bトークンの準備: 〜4/22
        • データセットの選定: 〜4/15
        • データセットの前処理: 〜4/20
        • データセットのindex処理: 〜4/21
      • 英語事前学習データ150Bトークンの準備: 〜4/22
        • データセットの選定: 〜4/15
        • データセットの前処理: 〜4/20
        • データセットのindex処理: 〜4/21
    • 評価チーム:
      • 事後学習データセットの準備: 〜4/22
        • SFT & DPO 選定: 概ね完了済み
        • SFT & DPO: フィルタリングとArgillaを介した加工 (事後学習データ 10k 程度を想定して加工はLLMと人力を想定)
        • SFT & DPO: ライセンスを加味した上で日本語翻訳(必要なものを対象にLLMの活用を想定)
  • モデル学習コード準備

    • トークナイザー

      • 完成
    • Mixtral(ライブラリ:moe-recipe, 並列化:zero3)

      • 必要な機能は実装済み

      ライセンスが付いていない、ライブラリのため使用が難しい事が判明

    • Llama2(ライブラリ: megatron-deepspeed)

      • 概ね実装済み
      • 並列化の部分が途中
      • 余裕があればskip batchなど取り入れたい
    • Mixtral(ライブラリ: Megablocks, 並列化 3D パラレル ,dmoe , llamaベース )

      • flash attnが反映されていない
      • データ取り込みの部分の精査が必要
      • wandbへのlogの実装が必要
      • huggingfaceチェックポイントへの変換コードの実装が必要
  • シングルGPUでの稼働確認、実績

    • モデルチーム:
      • Mixtral(ライブラリ:moe-recipe, 並列化:zero3)

        • 学習確認
        • 再学習確認
        • wandb連携確認
        • huggingface変換確認

        ライセンスが付いていない、ライブラリのため使用が難しい事が判明

      • Llama2(ライブラリ: megatron-deepspeed)

        • 学習確認
        • 再学習確認
        • wandb連携確認
        • huggingface変換確認
      • Mixtral(ライブラリ: Megablocks, 並列化 3D パラレル )

        • 学習確認
        • マルチGPU動作確認
    • 評価チーム:
      • denseモデルとMoEモデルのLM-Evaluation-Harness評価
        • rinnaモデルで確認済み
        • モデルチーム作成のMoEモデルで確認中(エラーが発生しており対処中)
  • マルチノードでの稼働確認、実績

    • モデルチーム:現在利用できないため停止中
    • 評価・チューニングチーム: 現在利用できないため停止中
  • うまくいきそうか計画の確信度

    • メインで使用していたコードがライセンスが付いていないものを参照していて、困ったがMoEの新しい実装が動き見込みができた

Discussion