松尾研| GENIAC LLM開発プロジェクトPublicationへの投稿

😽

[週次報告] 第2回 Team Kuma

2024/04/15に公開

開発テーマ・概要

PR-MoEのような、MoEの構造のモデルの学習をする
商用利用可能な良質なデータセットの作成

チーム全体の開発状況

日本語学習データの前処理
トークナイザーの作成とより良いトークナイザーの作り方の調査
マルチgpu実験に向けた準備
- denseモデルのLlama2ベースのコードの作成、動作確認
- Deepspeed-moeのコードの動作確認
モデルの評価の実験
DenseモデルでもSFTの実施
事後学習データの作り方の調査

サブチームからの情報共有

データチーム

やったこと

トークナイザー
- 最新のトークナイザー：wiki40bの日本語と英語を混ぜて学習した、Unigramベース。
  形態素解析などの事前処理はしていないので、分割精度はまだ微妙。
  https://huggingface.co/geniacllm/ja-en-tokenizer-unigram-v1
- 正規化についての調査
- llm-jp-tokenizerについての調査
データ
- CulturaXの日本語データ前処理
- CulturaXの英語データ前処理
Ask-LLM
- Otaさんを中心にしつつ、データチームを中心にタスク分担
- Ask-LLMの推論のためのGPUリソースを利用したい
  - T4インスタンスx1では1週間程度というオーダー
  - →1GPUを専有してもよい

次やること

llm-jp-tokenizerのv3コードを参考にトークナイザーの作成

モデルチーム

やったこと

マルチGPU実験に向けた準備
Dense10Bモデル
- wandbグルーブへの接続
  - 接続完了
- MegatronDeepSpeed解析＆実験
  - gpt系：0.35B2000step：wiki40bja&ja-uniトークナイザー
  - HuggingFaceへのアップロード完了
  - llama系0.3?B700step：wiki40bja&ja-uniトークナイザー
    - 学習&checkpoint再学習完了
    - HuggingFaceへの変換コード作成
      - ［最後のnorm層の重み］と［softmax前の重み］部分の名称を2箇所修正
Deepspeed-MoE
- wandbグルーブへの接続
  - 接続完了
- チェックポイントからの再学習、ロールバックしての再学習を確認

次やること

HuggingFaceにUpload済みの0.35Bと同じパラメータで、分散学習の動作確認
- denceモデルに関して、いくつかの並列化の条件で実験、速度の検証
  - tp2、pp2、zero1
  - tp2、pp1、zero3

評価チーム

やったこと

日本語LLMチューニングデータ最前線 - W&B ミートアップ #12 in 東京参加
- 指示チューニングも高品質なデータのみを集めた方がパフォーマンスが向
- 固有表現を含むデータを除外するとハルシネーションを減らせるかもしれない
- wandbのオートメーションとローンチという機能を使って、学習途中に下流タスクの評価も出来る
RakutenAI-7B-chatの調査
- 商用利用可能で利用可能
SFT
- LM-Evaluation-Harnessによる評価の実施（エラーが出他ため調査中）
  - https://huggingface.co/Rakuten/RakutenAI-7B
  - ８タスクは6時間で終わらない→途中経過は保存される？
- モデルチーム作成のDenseモデルのSFT→出力の消失問題発生
- LLM-jp-1.3BのSFT→max-seq-length=20498にするとLoRAでもA100でメモリ不足
  →分散環境での実行が必要？

次やること

事後学習データに対するAsk-LLM
パワープレキシーを試す
Ask-LLMのプロンプトの評価のための人手アノテーション
上質な品質データ（MT-Bench向け）を作るための方法の調査

松尾研| GENIAC LLM開発プロジェクトPublication

Discussion