👏
[週次報告] 第2回 Team 甲(きのえ)
開発テーマ・概要
- テーマ:メンバー全員で作り上げるボトムアップ型開発
チーム全体の開発状況
- メンバーの希望を聴取し、各チームのチーム割りを行った。
- Githubなどの開発環境を構築し、チーム開発の進め方を整えた。
- データセットとモデルの準備方針の策定を行った。
サブチームからの情報共有
全体統括T
技術的総括T
- 今週の進捗
- Subチーム内でのMTG実施
- プロジェクト前半の行動について共有
- Phase0前半は、各Subチーム内の役割を優先して習熟する
- 技術総括Tの定期ミーティングは毎週水曜日19:00からの週次定例
- 技術総括Tとして、個別に報告事案(担当タスク)がなければ参加は任意
- 勉強会(基礎)の実施
- ネクストステップ
- コード習熟
事務的総括T
- ネクストステップ
- 使用予定データセット/モデルの登録があり次第確認を行う
データT
事前学習用データ
- 今週の進捗
- 重複除去の実験を行いました ⇒ 重複処理
- ローカル環境では 1B トークンあたり 30 分 くらいの処理時間になっています.
- プレ環境では極端に遅いので調査中です.
- フィルタリングの準備中
- フィルタリングの基本ルールをまとめました ⇒ フィルタリング
- 武藤さんが実装ルールをまとめてくださっています ⇒ フィルタリング共通ルール(案)
- ただこれだけだと動きづらいと思われるので,プレ環境に繋いでフィルターを実装し,実際に jsonl ファイルを処理してみる会を開こうと考えています.
- フィルタリングの基本ルールをまとめました ⇒ フィルタリング
- 重複除去の実験を行いました ⇒ 重複処理
- ネクストステップ
- フィルター実装チュートリアルを開催する
- プレ環境で dedep 関数がまともに動くようにする
- 相談事項等
- チーム内への相談事項
- 3/29まで山内が動けないので,フィルターのデモを実装してくれる方募集(山内)
- プレ環境で dedup が遅い理由を究明してくれる方募集(山内)
- チーム内への相談事項
事後学習用データ
- 今週の進捗
- コンセプト決定
- 日本文学や俳句に強い
- やわらかい言葉で傾聴力がある
- データセットデザイン、データ収集
- データ収集のワークフローを組み、動き出した
- 事後学習に必要なデータ
- コンセプト決定
- ネクストステップ
- データ作成ワークフロー決定(3/28話し合い)
- データ作成開始
- コンセプト実現用データの収集
- 相談事項等
- チーム内への相談事項
- データセット収集やLLMに解かせたいタスクの書き出しなどをもっと進めていきたいです。よろしくお願いします。
- 事後学習データ作成のワークフローの話し合いにぜひご参加ください。(3/28 19:00)
- チーム内への相談事項
学習T
-
今週の進捗
全体
- メンバーと所属サブチームをnotionにまとめました
標準コードT
-
→ カスタマイズ性の拡張
-
→ logに関する処理をいじれるようになった。
-
→ modelにおけるZeRO stageの選択意思決定が可能
- Llama2実装における様々な実験 (上記リンクが見やすい)
Mistral
- Mistralの実装が完了
- sliding window attentionを有効にするためにwindow_sizeのargをflash attentionに追加
- paged QK cacheを有効にするためにblock tableのargをflash attentionに追加
- これは最近flash attentionに追加されたもので、コミュニティでまだあまり使われていないので、学習がうまく行くか不明なのでリスクがありそう
- どちらもtransformer.pyのFlashSelfAttention クラスにconfigを渡す形で実装
-
ネクストステップ
- 標準コードT
-
Megatron Deepspeedには様々な実装例が存在するのでそれを片っ端から解析したり, 動かしたりしてみる
ex)
- ds_pretrain_gpt125M_MoE128.sh
- ds_pretrain_gpt125M_dense_cl_kd.sh
-
- Llama2 T
- hugging face modelへの変換
- 他のLlama2実装例との比較
- Mistral T
- まず標準コードでGPTを回す
- address already in useというエラーが出てて事前学習のところで詰まっている
- 学習コードが回ることを確認したらsliding windowをテスト
- 次にpaged QK cacheをテスト
- huggingfaceへの変換を確認
- GPT3との比較実験
- 標準コードT
Discussion