松尾研| GENIAC LLM開発プロジェクトPublicationへの投稿

🦁

[週次報告] 第2回 Team Zoo

松尾研 LLM開発 GENIAC

2024/04/08に公開

大規模言語モデル

4月第1週

開発テーマ・概要

新しいMoEモデルの作成と検証（モデル1, 2チーム）
新しいMoEの学習アルゴリズムの作成と検証（学習アルゴリズムチーム）
コーパスの自動作成(自動コーパスチーム)

チーム全体の開発状況

モデル1, 2は小規模での実験を続行
学習アルゴリズムについてはTokenizerの学習に関する調査を実施
コーパスについては調査及びフィルタリングパイプライン構築を実施

サブチームからの情報共有

開発基盤

やったこと
- Tokenizerの学習に関する調査
分かったこと
次やること
- 分散環境への移植の検討・フォロー

自動コーパス

やったこと
- コーパスの調査
- 日本語データのフィルタリングパイプラインの構築
分かったこと
- CC-100等、大きな日本語データは一定度見つかりそう
- 一方、有害なデータや重複等、大規模なフィルタが必要→フィルタリングパイプラインは作成済み
- 英語データに関しては、日本語に文脈が合わないと思われるもの(ex.欧米の文化的背景を強く踏まえたもの)をフィルタする必要あり
次やること
- コーパスの作成
- 日本語データのフィルタリング実行
- ASK-LLMを用いた日本語LLMのPretraining用英語コーパスの作成

学習アルゴリズム

やったこと
- 40Gデータ準備
- 小さいサイズのデータでの0.1B事前学習動作
- merge script作成/動作良さそう
分かったこと
- 事前学習のパラメタの選定
- megatron-deepspeedでのfinetuningのハイパラやコード
- huggingfaceでのfinetuningのハイパラやコード
- load balancing lossについて
次やること
- 0.1B実験スタート

モデル１

やったこと
- 現在のモデルをMegatoron-DeepSpeed上に移植
- SMoEモデルをMegatron−LMを使用してGCP上への移植調査、環境構築
分かったこと
- ABEJYAさんのMegatron−LMのコードが公開になる
- 現在のGCP環境上では、sudoが使えないのでDockerが動かない。
次やること
- Megatrron−DeepSpeed上の現在のモデルをGCP上でpipインストールできるようにし、動作確認。
- 最新のバージョンをMegatrron-DeepSpeedとABEJYAさんのMegatron−LMのバージョンに移植して、動作確認。
- トークナイザーの調査、作成。

モデル２

やったこと
- 現在計画している各アーキテクチャ構造での小規模データ実験
- Megatron-DeepSpeed上でSparsMoEを実装するうえでの課題整理
分かったこと
- 小規模データでは安定的に既存MoEを上回る性能及び低計算負荷を実現できることを確かめられた
- Megatron-DeepSpeed上でSparseMoEを一から実装するのには莫大な工数がかかることを把握
次やること
- 現在予定しているアーキテクチャでのハイパーパラメータ探索を完了させる
- Megatron-LMのMixtralを上記アーキテクチャに改修

松尾研| GENIAC LLM開発プロジェクトPublication

Discussion