🦁

[週次報告] 第2回 Team Zoo

2024/04/08に公開

4月第1週

開発テーマ・概要

  • 新しいMoEモデルの作成と検証(モデル1, 2チーム)
  • 新しいMoEの学習アルゴリズムの作成と検証(学習アルゴリズムチーム)
  • コーパスの自動作成(自動コーパスチーム)

チーム全体の開発状況

  • モデル1, 2は小規模での実験を続行
  • 学習アルゴリズムについてはTokenizerの学習に関する調査を実施
  • コーパスについては調査及びフィルタリングパイプライン構築を実施

サブチームからの情報共有

開発基盤

  • やったこと
    • Tokenizerの学習に関する調査
  • 分かったこと
  • 次やること
    • 分散環境への移植の検討・フォロー

自動コーパス

  • やったこと
    • コーパスの調査
    • 日本語データのフィルタリングパイプラインの構築
  • 分かったこと
    • CC-100等、大きな日本語データは一定度見つかりそう
    • 一方、有害なデータや重複等、大規模なフィルタが必要→フィルタリングパイプラインは作成済み
    • 英語データに関しては、日本語に文脈が合わないと思われるもの(ex.欧米の文化的背景を強く踏まえたもの)をフィルタする必要あり
  • 次やること
    • コーパスの作成
    • 日本語データのフィルタリング実行
    • ASK-LLMを用いた日本語LLMのPretraining用英語コーパスの作成

学習アルゴリズム

  • やったこと
    • 40Gデータ準備
    • 小さいサイズのデータでの0.1B事前学習動作
    • merge script作成/動作良さそう
  • 分かったこと
    • 事前学習のパラメタの選定
    • megatron-deepspeedでのfinetuningのハイパラやコード
    • huggingfaceでのfinetuningのハイパラやコード
    • load balancing lossについて
  • 次やること
    • 0.1B実験スタート

モデル1

  • やったこと
    • 現在のモデルをMegatoron-DeepSpeed上に移植
    • SMoEモデルをMegatron−LMを使用してGCP上への移植調査、環境構築
  • 分かったこと
    • ABEJYAさんのMegatron−LMのコードが公開になる
    • 現在のGCP環境上では、sudoが使えないのでDockerが動かない。
  • 次やること
    • Megatrron−DeepSpeed上の現在のモデルをGCP上でpipインストールできるようにし、動作確認。
    • 最新のバージョンをMegatrron-DeepSpeedとABEJYAさんのMegatron−LMのバージョンに移植して、動作確認。
    • トークナイザーの調査、作成。

モデル2

  • やったこと
    • 現在計画している各アーキテクチャ構造での小規模データ実験
    • Megatron-DeepSpeed上でSparsMoEを実装するうえでの課題整理
  • 分かったこと
    • 小規模データでは安定的に既存MoEを上回る性能及び低計算負荷を実現できることを確かめられた
    • Megatron-DeepSpeed上でSparseMoEを一から実装するのには莫大な工数がかかることを把握
  • 次やること
    • 現在予定しているアーキテクチャでのハイパーパラメータ探索を完了させる
    • Megatron-LMのMixtralを上記アーキテクチャに改修

Discussion