🐈
[週次報告] 第1回 Team 甲
開発テーマ・概要
- 私たちは、日本語での大規模言語モデルの開発をしています。
- テーマ:メンバー全員で作り上げるボトムアップ型開発
チーム全体の開発状況
- メンバー全員と面談を行い、希望を聴取し、各チーム(全体統括チーム、データチーム、事前・事後学習チーム)へのチーム割りを行いました。以下の課題が浮き彫りとなり、解決策を検討しました。
- 課題と解決策
- 課題1:稼働時間の短いメンバーのキャッチアップの難しさ(1日2時間程度の稼働時間のうち、1時間はキャッチアップで溶けてしまう)
- 「ここを見てね」という場所を作る
- どこを見ればよいか?はslackのcanvasに記載
- キャッチアップで見るべき場所は、slackのピン留めアイテムとnotionの更新履歴
- 「ここを見てね」という場所を作る
- 課題2:他チームの動きが見づらい
- notionページのチームホームの記載の統一化(スケジュール、メンバー一覧、週次報告内容はここでわかるようにする)
- チーム内週次MTGの開催(リーダーからの共有事項や、各チームからの共有事項はここに集約)
- 課題3:気軽に相談できる相手がなかなか見つからない(オンラインのため親睦が深まりにくい)
- カジュアル会(録画なし、雑談メイン)の不定期開催
- 希望者は一定数いたものの、任意かつ希望者全員の予定が合わず、1回あたりの参加者は少なかった(ただ、その分深く話すことができたため、親睦は深まった)
- notionにて、各自の稼働可能時間の見える化
- チェックインという場を作り、今反応できるよ〜という状態が見えるようにするもの
- 任意という位置付けのため、活用者がやや少ない&各人も毎度使っているわけではなく、活用には課題あり
- カジュアル会(録画なし、雑談メイン)の不定期開催
- 課題1:稼働時間の短いメンバーのキャッチアップの難しさ(1日2時間程度の稼働時間のうち、1時間はキャッチアップで溶けてしまう)
- 課題と解決策
- これまで、Githubなどの開発環境を構築し、チーム開発の進め方を整え、データセットとモデルの準備方針の策定を行ってきました。主要な課題と解決策は以下の通りです。
- 課題と解決策
- 課題1:Github開発で複数のリポジトリを作成する必要がある可能性があり、単一リポの共有では足りない
- Organization機能を用いたgithub整備を行った
- ただし、リポの乱立を防ぎ、メインリポで成果物の修正履歴を確認する観点から、学習に関するメインソースコードについては、単一リポの方針とした(スクレイピング用のコードなど、別コードについては別リポとした)
- 課題2:縦割りで検討を行うことの限界(データと学習の接続的タスクやスケジュールについては、サブチーム横断的に検討する必要があった)
- 全体課題を整理するページを用意し、週次定例MTGでそれらの課題を議論し、タスクとして落とし込む仕組みとした
- 課題1:Github開発で複数のリポジトリを作成する必要がある可能性があり、単一リポの共有では足りない
- 課題と解決策
サブチームからの情報共有
全体統括T
技術的総括T
- 今週の進捗
- 開発環境(主にGithub)の運用ルール決め
- github organization機能の利用の決定
- 利用ルールの作成
- 開発環境(主にGithub)の運用ルール決め
- ネクストステップ
- 技術総括チームの顔合わせ実施(3/22予定)
事務的総括T
- 今週の進捗
- キックオフMTG
- 著作権に関する基本情報や暫定版ルールの共有
- 今後のタスク割振り方針の決定
- 使用予定データ・モデルの検討
- 1件処理済み
- キックオフMTG
- ネクストステップ
- 使用予定データ・モデルの登録があり次第、確認を行う
データT
全体
- 今週の進捗
- GCP環境のセットアップ
- mc4のダウンロード
- ABEJAさんとの勉強会
事前学習用データ
- 今週の進捗
- フィルタリング方針の相談 ⇒ 基本方針だけ決めて各自で
- ネクストステップ
- 基本方針の共有
- ダウンロード済みデータセットリストページの作成
学習T
- 今週の進捗
-
ベースラインとするモデルの候補は以下の3つに確定
「GPT3」「Llama2」「Mistral」
-
環境が提供されたので各自が実行することが大目標
- 現状, 動かせた人と動かせてない人がいる。
-
標準コードT
-
Mistral T
- 大体の実装が終わりつつある (Slide Window Attentionの実装は済)
- ローリングバッファの実装難易度高いので、割愛するかも
-
Llama2 T
- wandbでモニタリングができるようになったので、現在に事前学習を進行中
-
- ネクストステップ
- 標準コードT
- MegatronDeepspeed内のexampleにbashスクリプトがあるので、内容の使い方を調べる
- GPU間の通信オーバーヘッドが多いがZeROのそれぞれの違いを調べて、効率の良い方法を模索したい
- ログ周りの集計方法、チェックポイントからの学習の再開などの調査を行う(来週火曜日ぐらい目途)
- Mistral T
- モデルの改善はそろそろ目途をつけて、スクリプト側の方に着手したい
- Llama2 T
- exampleのbashのパラメータの差分をチェックして、試行錯誤が必要
- 1回は実験してもらいたい
- 標準コードT
- 相談事項等
Discussion