松尾研| GENIAC LLM開発プロジェクトPublicationへの投稿

📌

[週次報告] 第3回 Team Zoo

松尾研 LLM開発 GENIAC

2024/04/15に公開

大規模言語モデル

開発テーマ・概要

新しいMoEモデルの作成と検証（モデル1, 2チーム）
新しいMoEの学習アルゴリズムの作成と検証（学習アルゴリズムチーム）
コーパスの自動作成(自動コーパスチーム)

チーム全体の開発状況

実験的に良い結果の出たモデル2と学習アルゴリズムをマージした
コーパスについては調査及びフィルタリングパイプライン構築を実施

サブチームからの情報共有

自動コーパス

やったこと
- コーパスの調査、データ作成
- Router学習用クラスタリングの試運転
- フィルタリング
- ASK-LLMの調査
分かったこと
- クラスタ、フィルタ、ASK-LLMは多量の計算資源が必要
- 時間的制約も厳しい
- 計算資源等の環境が整い次第、速やかに上記に取り掛かれるよう用意が必要
- コンペのルールに従うと、ASK-LLMに利用できるモデルがなかなか見つからない
次やること
- クラスタ、フィルタの準備
- 環境が整い次第実行
- ASK-LLMの継続調査

学習アルゴリズム

やったこと
- 0.1B事前学習Done
- mutli-gpu動作
分かったこと
- Router FTの実装
- CUDA error: device-side assert triggered 調査
- multi-node動作
次やること
- アーキテクチャを変えて実験(gpt2 to llama2)

モデル１

やったこと
- トークナイザーの調査、実装
- コーパスごとの前処理のスクリプト、調査、実装
分かったこと
- データの種類が少ないかつデータセットの量が少ないと、アウトプットが文章にならない。
- トークナイザーは一つで22日までに作成したらfix
次やること
- データの前処理済みのコーパスが得られたら、
  前処理なしのデータと比べて、コーパス毎等、半自動化のサイクルを回す。

モデル２

やったこと
- 基本構造部分に関する小規模データ実験を完了
- モデル改善を進捗
  - router配置・attention構造・活性化関数・rotary embeddingなど、各箇所の手法改善
分かったこと
- 基本構造部分について筋の良い組合せを把握
次やること
- モデル改善の継続
- 実装完了した改善手法での性能検証

松尾研| GENIAC LLM開発プロジェクトPublication

Discussion