🐈

[週次報告] 第1回 Team 甲

2024/03/28に公開

開発テーマ・概要

  • 私たちは、日本語での大規模言語モデルの開発をしています。
  • テーマ:メンバー全員で作り上げるボトムアップ型開発

チーム全体の開発状況

  • メンバー全員と面談を行い、希望を聴取し、各チーム(全体統括チーム、データチーム、事前・事後学習チーム)へのチーム割りを行いました。以下の課題が浮き彫りとなり、解決策を検討しました。
    • 課題と解決策
      • 課題1:稼働時間の短いメンバーのキャッチアップの難しさ(1日2時間程度の稼働時間のうち、1時間はキャッチアップで溶けてしまう)
        • 「ここを見てね」という場所を作る
          • どこを見ればよいか?はslackのcanvasに記載
          • キャッチアップで見るべき場所は、slackのピン留めアイテムとnotionの更新履歴
      • 課題2:他チームの動きが見づらい
        • notionページのチームホームの記載の統一化(スケジュール、メンバー一覧、週次報告内容はここでわかるようにする)
        • チーム内週次MTGの開催(リーダーからの共有事項や、各チームからの共有事項はここに集約)
      • 課題3:気軽に相談できる相手がなかなか見つからない(オンラインのため親睦が深まりにくい)
        • カジュアル会(録画なし、雑談メイン)の不定期開催
          • 希望者は一定数いたものの、任意かつ希望者全員の予定が合わず、1回あたりの参加者は少なかった(ただ、その分深く話すことができたため、親睦は深まった)
        • notionにて、各自の稼働可能時間の見える化
          • チェックインという場を作り、今反応できるよ〜という状態が見えるようにするもの
          • 任意という位置付けのため、活用者がやや少ない&各人も毎度使っているわけではなく、活用には課題あり
  • これまで、Githubなどの開発環境を構築し、チーム開発の進め方を整え、データセットとモデルの準備方針の策定を行ってきました。主要な課題と解決策は以下の通りです。
    • 課題と解決策
      • 課題1:Github開発で複数のリポジトリを作成する必要がある可能性があり、単一リポの共有では足りない
        • Organization機能を用いたgithub整備を行った
        • ただし、リポの乱立を防ぎ、メインリポで成果物の修正履歴を確認する観点から、学習に関するメインソースコードについては、単一リポの方針とした(スクレイピング用のコードなど、別コードについては別リポとした)
      • 課題2:縦割りで検討を行うことの限界(データと学習の接続的タスクやスケジュールについては、サブチーム横断的に検討する必要があった)
        • 全体課題を整理するページを用意し、週次定例MTGでそれらの課題を議論し、タスクとして落とし込む仕組みとした

サブチームからの情報共有

全体統括T

技術的総括T

  • 今週の進捗
    • 開発環境(主にGithub)の運用ルール決め
      • github organization機能の利用の決定
      • 利用ルールの作成
  • ネクストステップ
    • 技術総括チームの顔合わせ実施(3/22予定)

事務的総括T

  • 今週の進捗
    • キックオフMTG
      • 著作権に関する基本情報や暫定版ルールの共有
      • 今後のタスク割振り方針の決定
    • 使用予定データ・モデルの検討
      • 1件処理済み
  • ネクストステップ
    • 使用予定データ・モデルの登録があり次第、確認を行う

データT

全体

  • 今週の進捗
    • GCP環境のセットアップ
    • mc4のダウンロード
    • ABEJAさんとの勉強会

事前学習用データ

  • 今週の進捗
    • フィルタリング方針の相談 ⇒ 基本方針だけ決めて各自で
  • ネクストステップ
    • 基本方針の共有
    • ダウンロード済みデータセットリストページの作成

学習T

  • 今週の進捗
    • ベースラインとするモデルの候補は以下の3つに確定

      「GPT3」「Llama2」「Mistral」

    • 環境が提供されたので各自が実行することが大目標

      • 現状, 動かせた人と動かせてない人がいる。
    • 標準コードT

    • Mistral T

      • 大体の実装が終わりつつある (Slide Window Attentionの実装は済)
      • ローリングバッファの実装難易度高いので、割愛するかも
    • Llama2 T

      • wandbでモニタリングができるようになったので、現在に事前学習を進行中
  • ネクストステップ
    • 標準コードT
      • MegatronDeepspeed内のexampleにbashスクリプトがあるので、内容の使い方を調べる
      • GPU間の通信オーバーヘッドが多いがZeROのそれぞれの違いを調べて、効率の良い方法を模索したい
      • ログ周りの集計方法、チェックポイントからの学習の再開などの調査を行う(来週火曜日ぐらい目途)
    • Mistral T
      • モデルの改善はそろそろ目途をつけて、スクリプト側の方に着手したい
    • Llama2 T
      • exampleのbashのパラメータの差分をチェックして、試行錯誤が必要
    • 1回は実験してもらいたい
  • 相談事項等

Discussion