😽
[週次報告] 第2回 Team Kuma
開発テーマ・概要
- PR-MoEのような、MoEの構造のモデルの学習をする
- 商用利用可能な良質なデータセットの作成
チーム全体の開発状況
- 日本語学習データの前処理
- トークナイザーの作成とより良いトークナイザーの作り方の調査
- マルチgpu実験に向けた準備
- denseモデルのLlama2ベースのコードの作成、動作確認
- Deepspeed-moeのコードの動作確認
- モデルの評価の実験
- DenseモデルでもSFTの実施
- 事後学習データの作り方の調査
サブチームからの情報共有
データチーム
やったこと
- トークナイザー
- 最新のトークナイザー:wiki40bの日本語と英語を混ぜて学習した、Unigramベース。
形態素解析などの事前処理はしていないので、分割精度はまだ微妙。
https://huggingface.co/geniacllm/ja-en-tokenizer-unigram-v1 - 正規化についての調査
- llm-jp-tokenizerについての調査
- 最新のトークナイザー:wiki40bの日本語と英語を混ぜて学習した、Unigramベース。
- データ
- CulturaXの日本語データ前処理
- CulturaXの英語データ前処理
- Ask-LLM
- Otaさんを中心にしつつ、データチームを中心にタスク分担
- Ask-LLMの推論のためのGPUリソースを利用したい
- T4インスタンスx1では1週間程度というオーダー
- →1GPUを専有してもよい
次やること
llm-jp-tokenizerのv3コードを参考にトークナイザーの作成
モデルチーム
やったこと
- マルチGPU実験に向けた準備
- Dense10Bモデル
- wandbグルーブへの接続
- 接続完了
- MegatronDeepSpeed解析&実験
- gpt系:0.35B2000step:wiki40bja&ja-uniトークナイザー
- HuggingFaceへのアップロード完了
- llama系0.3?B700step:wiki40bja&ja-uniトークナイザー
- 学習&checkpoint再学習完了
- HuggingFaceへの変換コード作成
- [最後のnorm層の重み]と[softmax前の重み]部分の名称を2箇所修正
- wandbグルーブへの接続
- Deepspeed-MoE
- wandbグルーブへの接続
- 接続完了
- チェックポイントからの再学習、ロールバックしての再学習を確認
- wandbグルーブへの接続
次やること
- HuggingFaceにUpload済みの0.35Bと同じパラメータで、分散学習の動作確認
- denceモデルに関して、いくつかの並列化の条件で実験、速度の検証
- tp2、pp2、zero1
- tp2、pp1、zero3
- denceモデルに関して、いくつかの並列化の条件で実験、速度の検証
評価チーム
やったこと
-
日本語LLMチューニングデータ最前線 - W&B ミートアップ #12 in 東京 参加
- 指示チューニングも高品質なデータのみを集めた方がパフォーマンスが向
- 固有表現を含むデータを除外するとハルシネーションを減らせるかもしれない
- wandbのオートメーションとローンチという機能を使って、学習途中に下流タスクの評価も出来る
- RakutenAI-7B-chatの調査
- 商用利用可能 で利用可能
- SFT
- LM-Evaluation-Harnessによる評価の実施(エラーが出他ため調査中)
- https://huggingface.co/Rakuten/RakutenAI-7B
- 8タスクは6時間で終わらない→途中経過は保存される?
- モデルチーム作成のDenseモデルのSFT→出力の消失問題発生
- LLM-jp-1.3BのSFT→max-seq-length=20498にするとLoRAでもA100でメモリ不足
→分散環境での実行が必要?
- LM-Evaluation-Harnessによる評価の実施(エラーが出他ため調査中)
次やること
- 事後学習データに対するAsk-LLM
- パワープレキシーを試す
- Ask-LLMのプロンプトの評価のための人手アノテーション
- 上質な品質データ(MT-Bench向け)を作るための方法の調査
Discussion