松尾研| GENIAC LLM開発プロジェクトPublicationへの投稿

🦔

[週次報告] 第5回 Team 甲(きのえ)

松尾研 LLM開発 GENIAC

2024/05/02に公開

大規模言語モデル

開発テーマ・概要

テーマ：メンバー全員で作り上げるボトムアップ型開発
当チームでは、研究に裏打ちされた手堅い手法をベースとした開発を行い、質の良い日本語の出力が可能なLLMの開発を目指す。具体的には、GPT3, Llama2, Mistralのモデルを実験し、比較的精度の高かったMistralモデルを採用することとした。
事前学習に用いるデータはJapanese mC4とWikipediaから構成される日本語データなどを用い、ファインチューニングに用いるデータセットはチーム内で作成する。事後学習用データセットについては、余裕があれば①やわらかい言葉を使い傾聴力を持つ、②日本文学などに詳しく俳句を詠めるといった独自コンセプトを意識したデータセットを追加的に用意する。

チーム全体の開発状況

メンバーの希望を聴取し、各チームのチーム割りを行った。
Githubなどの開発環境を構築し、チーム開発の進め方を整えた。
データセットとモデルの準備方針の策定を行った。
データセットの収集、モデルの実装を各チームで進めた。
small版でのモデルの稼働確認を行い、本番環境での初動計画を策定した。
本番環境でのセットアップを行なっている最中。

サブチームからの情報共有

全体統括T

技術的総括T

今週の進捗
- Phase1見守りに向けたドキュメント整備
- 見守りの体制構築
ネクストステップ
- 見守り運用
- 不具合の対応
相談事項等
- チーム内への相談事項
  - 見守り運用ルール等についての相談
- コミュニティ外の方とのディスカッションなど
  - 特になし

事務的総括T

今週の進捗
- 事後学習に用いる可能性のあるデータのライセンスチェック
ネクストステップ
- 使用データ、モデルの確認一覧のまとめ
- 松尾研への報告シートへの転記

データT

トークナイゼーション

今週の進捗
- 日本語40k, コード15kのトークナイザを作成
  - 日本語だと 1.95 char / token
  - コードだと 2.3 char / token

事前学習用データ

今週の進捗
- mC4, OSCAR, cc100 の前処理終了
  - 重複処理まで．だいたい 1/7 が重複．
- Python / C++ / HTML / CSS / Markdown の抽出完了
  - ライセンス問題ないものだけ
- 青空文庫
  - chunk化完了
- アノテーションのモデル完成
ネクストステップ
- 統合して１つのファイルにする

事後学習用データ

今週の進捗
- 既存データセットのフィルタリング
  - 一旦完了したが、品質に問題あり。より細かいフィルタリングや修正をした方が良い。
    - 例：「より簡単な日本語にして」という問題と例文が与えらえて、例文と全く同じ文を出力する、など。
- llm-jp-eval対策用データの選定
  - llm-jp-eval対策用データを一から作るのは難しいので、llm-jp-eval対策に有効と思われるデータを収集し、フィルタリングを実行。
    - FLAN
    - jp-effective-instructions
ネクストステップ
- 既存データセットの品質を高める
  - 各データセットの担当の方を中心にフィルタリングや修正を行う。
- llm-jp-eval対策用データ
  - FLANの翻訳
- JMT-bench対策用データ
  - データ作成用にチューニングしたLLMを作り、それで作成できるか実験
- 汎用的な能力を獲得するためのデータセット作成
  - JMT-benchと同じく、データ作成用にチューニングしたLLMを作り、それで作成できるか実験

学習T

今週の進捗
- 決定事項
  - Mixtral 7*8B > Qwen = Mistral13B / 7Bの優先度で実験
- モデルの決定基準
  - モデルごとの学習速度に焦点を当てて議論する
  - 特にモデルがvramに乗るかどうか
- 事後学習
  - サーベイが進行中
- モデルに関して
  - 全てのモデルがout-of-memoryになってのらない状況
  - global batch, sequence lengthなど変更して試みても解決せず, 苦戦中
ネクストステップ
- 決定したモデルのhugging face変換コードの完成
- 事後学習のサーベイ, 実装

ディスカッション

特になし

開発のマイルストーン

データ準備
- [事前学習関係] mC4/cc100/OSCAR でのフィルタリングが完了
- [事前学習関係] コードデータフィルタリング完了
- [事前学習関係] 本番環境へのデータセット移行終了
モデル学習コード準備
- [事前学習関係] Mixtral, Mistral, Llama2の実装完了（HFへの変換の確度は要確認）
シングルGPUでの稼働確認、実績
- [事前学習関係] プレ環境では上記いずれも稼働確認済み
- [事前学習関係] 本番環境ではMistral 125M稼働確認済
マルチノードでの稼働確認、実績
- [事前学習関係] プレ環境では標準コード、小規模 mixtral について稼働確認済み
- [事前学習関係] 本番環境ではMistral 125M稼働確認済

その他

特になし

松尾研| GENIAC LLM開発プロジェクトPublication

Discussion