👏

[週次報告] 第2回 Team 甲(きのえ)

松尾研 LLM開発 GENIAC

2024/04/08に公開

開発テーマ・概要

テーマ：メンバー全員で作り上げるボトムアップ型開発

チーム全体の開発状況

メンバーの希望を聴取し、各チームのチーム割りを行った。
Githubなどの開発環境を構築し、チーム開発の進め方を整えた。
データセットとモデルの準備方針の策定を行った。

サブチームからの情報共有

全体統括T

技術的総括T

今週の進捗
- Subチーム内でのMTG実施
- プロジェクト前半の行動について共有
  - Phase0前半は、各Subチーム内の役割を優先して習熟する
  - 技術総括Tの定期ミーティングは毎週水曜日19：00からの週次定例
    - 技術総括Tとして、個別に報告事案（担当タスク）がなければ参加は任意
- 勉強会（基礎）の実施
ネクストステップ
- コード習熟

事務的総括T

ネクストステップ
- 使用予定データセット/モデルの登録があり次第確認を行う

データT

事前学習用データ

今週の進捗
- 重複除去の実験を行いました ⇒ 重複処理
  - ローカル環境では 1B トークンあたり 30 分くらいの処理時間になっています．
  - プレ環境では極端に遅いので調査中です．
- フィルタリングの準備中
  - フィルタリングの基本ルールをまとめました ⇒ フィルタリング
    - 武藤さんが実装ルールをまとめてくださっています ⇒ フィルタリング共通ルール（案）
  - ただこれだけだと動きづらいと思われるので，プレ環境に繋いでフィルターを実装し，実際に jsonl ファイルを処理してみる会を開こうと考えています．
ネクストステップ
- フィルター実装チュートリアルを開催する
- プレ環境で dedep 関数がまともに動くようにする
相談事項等
- チーム内への相談事項
  - 3/29まで山内が動けないので，フィルターのデモを実装してくれる方募集（山内）
  - プレ環境で dedup が遅い理由を究明してくれる方募集（山内）

事後学習用データ

今週の進捗
- コンセプト決定
  - 日本文学や俳句に強い
  - やわらかい言葉で傾聴力がある
- データセットデザイン、データ収集
  - データ収集のワークフローを組み、動き出した
  - 事後学習に必要なデータ
ネクストステップ
- データ作成ワークフロー決定（3/28話し合い）
- データ作成開始
- コンセプト実現用データの収集
相談事項等
- チーム内への相談事項
  - データセット収集やLLMに解かせたいタスクの書き出しなどをもっと進めていきたいです。よろしくお願いします。
  - 事後学習データ作成のワークフローの話し合いにぜひご参加ください。（3/28 19:00）

学習T

今週の進捗

全体
- メンバーと所属サブチームをnotionにまとめました
標準コードT
- bashの解析
  
  → カスタマイズ性の拡張
- logのため方等の解析
  
  → logに関する処理をいじれるようになった。
- ZeROの解析
  
  → modelにおけるZeRO stageの選択意思決定が可能
Llama2 T
- Llama2実装における様々な実験 (上記リンクが見やすい)
Mistral
- Mistralの実装が完了
  - sliding window attentionを有効にするためにwindow_sizeのargをflash attentionに追加
  - paged QK cacheを有効にするためにblock tableのargをflash attentionに追加
  - これは最近flash attentionに追加されたもので、コミュニティでまだあまり使われていないので、学習がうまく行くか不明なのでリスクがありそう
  - どちらもtransformer.pyのFlashSelfAttention クラスにconfigを渡す形で実装
ネクストステップ
- 標準コードT
  - Megatron Deepspeedには様々な実装例が存在するのでそれを片っ端から解析したり, 動かしたりしてみる
    
    ex)
    - ds_pretrain_gpt125M_MoE128.sh
    - ds_pretrain_gpt125M_dense_cl_kd.sh
- Llama2 T
  - hugging face modelへの変換
  - 他のLlama2実装例との比較
- Mistral T
  - まず標準コードでGPTを回す
  - address already in useというエラーが出てて事前学習のところで詰まっている
  - 学習コードが回ることを確認したらsliding windowをテスト
  - 次にpaged QK cacheをテスト
  - huggingfaceへの変換を確認
  - GPT3との比較実験

松尾研| GENIAC LLM開発プロジェクトPublication

開発テーマ・概要

チーム全体の開発状況

サブチームからの情報共有

全体統括T

データT

学習T

Discussion