📌

[週次報告] 第3回 Team Zoo

2024/04/15に公開

開発テーマ・概要

  • 新しいMoEモデルの作成と検証(モデル1, 2チーム)
  • 新しいMoEの学習アルゴリズムの作成と検証(学習アルゴリズムチーム)
  • コーパスの自動作成(自動コーパスチーム)

チーム全体の開発状況

  • 実験的に良い結果の出たモデル2と学習アルゴリズムをマージした
  • コーパスについては調査及びフィルタリングパイプライン構築を実施

サブチームからの情報共有

自動コーパス

  • やったこと
    • コーパスの調査、データ作成
    • Router学習用クラスタリングの試運転
    • フィルタリング
    • ASK-LLMの調査
  • 分かったこと
    • クラスタ、フィルタ、ASK-LLMは多量の計算資源が必要
    • 時間的制約も厳しい
    • 計算資源等の環境が整い次第、速やかに上記に取り掛かれるよう用意が必要
    • コンペのルールに従うと、ASK-LLMに利用できるモデルがなかなか見つからない
  • 次やること
    • クラスタ、フィルタの準備
    • 環境が整い次第実行
    • ASK-LLMの継続調査

学習アルゴリズム

  • やったこと
    • 0.1B事前学習Done
    • mutli-gpu動作
  • 分かったこと
    • Router FTの実装
    • CUDA error: device-side assert triggered 調査
    • multi-node動作
  • 次やること
    • アーキテクチャを変えて実験(gpt2 to llama2)

モデル1

  • やったこと

    • トークナイザーの調査、実装
    • コーパスごとの前処理のスクリプト、調査、実装
  • 分かったこと

    • データの種類が少ないかつデータセットの量が少ないと、アウトプットが文章にならない。
    • トークナイザーは一つで22日までに作成したらfix
  • 次やること

    • データの前処理済みのコーパスが得られたら、
      前処理なしのデータと比べて、コーパス毎等、半自動化のサイクルを回す。

モデル2

  • やったこと
    • 基本構造部分に関する小規模データ実験を完了
    • モデル改善を進捗
      • router配置・attention構造・活性化関数・rotary embeddingなど、各箇所の手法改善
  • 分かったこと
    • 基本構造部分について筋の良い組合せを把握
  • 次やること
    • モデル改善の継続
    • 実装完了した改善手法での性能検証

Discussion