😽

[週次報告] 第2回 Team Kuma

2024/04/15に公開

開発テーマ・概要

  • PR-MoEのような、MoEの構造のモデルの学習をする
  • 商用利用可能な良質なデータセットの作成

チーム全体の開発状況

  • 日本語学習データの前処理
  • トークナイザーの作成とより良いトークナイザーの作り方の調査
  • マルチgpu実験に向けた準備
    • denseモデルのLlama2ベースのコードの作成、動作確認
    • Deepspeed-moeのコードの動作確認
  • モデルの評価の実験
  • DenseモデルでもSFTの実施
  • 事後学習データの作り方の調査

サブチームからの情報共有

データチーム

やったこと

  • トークナイザー
    • 最新のトークナイザー:wiki40bの日本語と英語を混ぜて学習した、Unigramベース。
      形態素解析などの事前処理はしていないので、分割精度はまだ微妙。
      https://huggingface.co/geniacllm/ja-en-tokenizer-unigram-v1
    • 正規化についての調査
    • llm-jp-tokenizerについての調査
  • データ
    • CulturaXの日本語データ前処理
    • CulturaXの英語データ前処理
  • Ask-LLM
    • Otaさんを中心にしつつ、データチームを中心にタスク分担
    • Ask-LLMの推論のためのGPUリソースを利用したい
      • T4インスタンスx1では1週間程度というオーダー
      • →1GPUを専有してもよい

次やること

llm-jp-tokenizerのv3コードを参考にトークナイザーの作成

モデルチーム

やったこと

  • マルチGPU実験に向けた準備
  • Dense10Bモデル
    • wandbグルーブへの接続
      • 接続完了
    • MegatronDeepSpeed解析&実験
      • gpt系:0.35B2000step:wiki40bja&ja-uniトークナイザー
      • HuggingFaceへのアップロード完了
      • llama系0.3?B700step:wiki40bja&ja-uniトークナイザー
        • 学習&checkpoint再学習完了
        • HuggingFaceへの変換コード作成
          • [最後のnorm層の重み]と[softmax前の重み]部分の名称を2箇所修正
  • Deepspeed-MoE
    • wandbグルーブへの接続
      • 接続完了
    • チェックポイントからの再学習、ロールバックしての再学習を確認

次やること

  • HuggingFaceにUpload済みの0.35Bと同じパラメータで、分散学習の動作確認
    • denceモデルに関して、いくつかの並列化の条件で実験、速度の検証
      • tp2、pp2、zero1
      • tp2、pp1、zero3

評価チーム

やったこと

  • 日本語LLMチューニングデータ最前線 - W&B ミートアップ #12 in 東京 参加
    • 指示チューニングも高品質なデータのみを集めた方がパフォーマンスが向
    • 固有表現を含むデータを除外するとハルシネーションを減らせるかもしれない
    • wandbのオートメーションとローンチという機能を使って、学習途中に下流タスクの評価も出来る
  • RakutenAI-7B-chatの調査
    • 商用利用可能 で利用可能
  • SFT
    • LM-Evaluation-Harnessによる評価の実施(エラーが出他ため調査中)
    • モデルチーム作成のDenseモデルのSFT→出力の消失問題発生
    • LLM-jp-1.3BのSFT→max-seq-length=20498にするとLoRAでもA100でメモリ不足
      →分散環境での実行が必要?

次やること

  • 事後学習データに対するAsk-LLM
  • パワープレキシーを試す
  • Ask-LLMのプロンプトの評価のための人手アノテーション
  • 上質な品質データ(MT-Bench向け)を作るための方法の調査

Discussion