👏

[週次報告] 第2回 Team 甲(きのえ)

2024/04/08に公開

開発テーマ・概要

  • テーマ:メンバー全員で作り上げるボトムアップ型開発

チーム全体の開発状況

  • メンバーの希望を聴取し、各チームのチーム割りを行った。
  • Githubなどの開発環境を構築し、チーム開発の進め方を整えた。
  • データセットとモデルの準備方針の策定を行った。

サブチームからの情報共有

全体統括T

技術的総括T

  • 今週の進捗
    • Subチーム内でのMTG実施
    • プロジェクト前半の行動について共有
      • Phase0前半は、各Subチーム内の役割を優先して習熟する
      • 技術総括Tの定期ミーティングは毎週水曜日19:00からの週次定例
        • 技術総括Tとして、個別に報告事案(担当タスク)がなければ参加は任意
    • 勉強会(基礎)の実施
  • ネクストステップ
    • コード習熟

事務的総括T

  • ネクストステップ
    • 使用予定データセット/モデルの登録があり次第確認を行う

データT

事前学習用データ

  • 今週の進捗
    • 重複除去の実験を行いました ⇒ 重複処理
      • ローカル環境では 1B トークンあたり 30 分 くらいの処理時間になっています.
      • プレ環境では極端に遅いので調査中です.
    • フィルタリングの準備中
      • フィルタリングの基本ルールをまとめました ⇒ フィルタリング
      • ただこれだけだと動きづらいと思われるので,プレ環境に繋いでフィルターを実装し,実際に jsonl ファイルを処理してみる会を開こうと考えています.
  • ネクストステップ
    • フィルター実装チュートリアルを開催する
    • プレ環境で dedep 関数がまともに動くようにする
  • 相談事項等
    • チーム内への相談事項
      • 3/29まで山内が動けないので,フィルターのデモを実装してくれる方募集(山内)
      • プレ環境で dedup が遅い理由を究明してくれる方募集(山内)

事後学習用データ

  • 今週の進捗
    • コンセプト決定
      • 日本文学や俳句に強い
      • やわらかい言葉で傾聴力がある
    • データセットデザイン、データ収集
  • ネクストステップ
    • データ作成ワークフロー決定(3/28話し合い)
    • データ作成開始
    • コンセプト実現用データの収集
  • 相談事項等
    • チーム内への相談事項
      • データセット収集やLLMに解かせたいタスクの書き出しなどをもっと進めていきたいです。よろしくお願いします。
      • 事後学習データ作成のワークフローの話し合いにぜひご参加ください。(3/28 19:00)

学習T

  • 今週の進捗

    全体

    • メンバーと所属サブチームをnotionにまとめました

    標準コードT

    Llama2 T

    • Llama2実装における様々な実験 (上記リンクが見やすい)

    Mistral

    • Mistralの実装が完了
      • sliding window attentionを有効にするためにwindow_sizeのargをflash attentionに追加
      • paged QK cacheを有効にするためにblock tableのargをflash attentionに追加
      • これは最近flash attentionに追加されたもので、コミュニティでまだあまり使われていないので、学習がうまく行くか不明なのでリスクがありそう
      • どちらもtransformer.pyのFlashSelfAttention クラスにconfigを渡す形で実装
  • ネクストステップ

    • 標準コードT
      • Megatron Deepspeedには様々な実装例が存在するのでそれを片っ端から解析したり, 動かしたりしてみる

        ex)

        • ds_pretrain_gpt125M_MoE128.sh
        • ds_pretrain_gpt125M_dense_cl_kd.sh
    • Llama2 T
      • hugging face modelへの変換
      • 他のLlama2実装例との比較
    • Mistral T
      • まず標準コードでGPTを回す
      • address already in useというエラーが出てて事前学習のところで詰まっている
      • 学習コードが回ることを確認したらsliding windowをテスト
      • 次にpaged QK cacheをテスト
      • huggingfaceへの変換を確認
      • GPT3との比較実験

Discussion