📌
[週次報告] 第3回 Team Zoo
開発テーマ・概要
- 新しいMoEモデルの作成と検証(モデル1, 2チーム)
- 新しいMoEの学習アルゴリズムの作成と検証(学習アルゴリズムチーム)
- コーパスの自動作成(自動コーパスチーム)
チーム全体の開発状況
- 実験的に良い結果の出たモデル2と学習アルゴリズムをマージした
- コーパスについては調査及びフィルタリングパイプライン構築を実施
サブチームからの情報共有
自動コーパス
- やったこと
- コーパスの調査、データ作成
- Router学習用クラスタリングの試運転
- フィルタリング
- ASK-LLMの調査
- 分かったこと
- クラスタ、フィルタ、ASK-LLMは多量の計算資源が必要
- 時間的制約も厳しい
- 計算資源等の環境が整い次第、速やかに上記に取り掛かれるよう用意が必要
- コンペのルールに従うと、ASK-LLMに利用できるモデルがなかなか見つからない
- 次やること
- クラスタ、フィルタの準備
- 環境が整い次第実行
- ASK-LLMの継続調査
学習アルゴリズム
- やったこと
- 0.1B事前学習Done
- mutli-gpu動作
- 分かったこと
- Router FTの実装
- CUDA error: device-side assert triggered 調査
- multi-node動作
- 次やること
- アーキテクチャを変えて実験(gpt2 to llama2)
モデル1
-
やったこと
- トークナイザーの調査、実装
- コーパスごとの前処理のスクリプト、調査、実装
-
分かったこと
- データの種類が少ないかつデータセットの量が少ないと、アウトプットが文章にならない。
- トークナイザーは一つで22日までに作成したらfix
-
次やること
- データの前処理済みのコーパスが得られたら、
前処理なしのデータと比べて、コーパス毎等、半自動化のサイクルを回す。
- データの前処理済みのコーパスが得られたら、
モデル2
- やったこと
- 基本構造部分に関する小規模データ実験を完了
- モデル改善を進捗
- router配置・attention構造・活性化関数・rotary embeddingなど、各箇所の手法改善
- 分かったこと
- 基本構造部分について筋の良い組合せを把握
- 次やること
- モデル改善の継続
- 実装完了した改善手法での性能検証
Discussion