4/22まで
- モデルの決定。
- 英語（refinedweb, slimpajama）, コード（The stack v2 + α？）のデータセットの用意。
- 日本語データセットの用意。
- 小さなモデルで学習できることを確認。
5/12まで
- ファインチューニングデータ（JMT-benchとllm-jp-evalに似たデータセット。ビジネス系データセット。（他の指標・ビジネスに有用なモデル作成用））
- アラインメントデータ

サブチームからの情報共有

サブチーム1（ドキュメント）

やったこと：週末の対面チーム開発に関して

分かったこと：

次にやること：

各サブチームが、どういったタイミングで成果物の資料を受け渡していただけるのか

ブログ・ノートとかで発信も可能であれば、行いたい
外部公開したいこと。
エッセイのようなものをいただけると嬉しい。

サブチーム2（前処理）

やったこと：

トークナイザー: sentencepieceの試用

データ選別: 使用できるデータセットの調査

分かったこと：日英語ごとにトークナイザーを変えた場合、英語でのみ性能改善・日本語では変化なし

次にやること：

アイデアリスト③に基づき，学習データ全量で学習（※これからチーム内に提案）
- 白書等のデータを優先？
- mc4などの大型データは全量の30%で学習時間見積もり
pipelineをpoetryにしたい
- requirement.txtを自動で作れる
- 依存関係を正しく管理できる
学習データをクリーニング
- データセット班のデータ処理を待つ
- 形態素解析を利用する等も考慮中
Perprexityを指標として利用
トークナイザーの評価指標の調査

サブチーム3（データセット）

やったこと：

CulturXの処理を整理
- 日本語判別 + フィルタリング

やるべきこと：

どれくらいのトークン数学習できるか
割合決定
マージ

現状のデータセット

slim pajama, refined web（重複削除）
The stack + open math（フィルタリング）
- カラムからのフィルタリング（プログラム言語）
- ライセンス、ライセンスタイプ　←　こちらで
  - こちらのコードを共有いただく。
  - ライセンスだけでかなり、絞られる
  - ライセンス絞るコードを記述
上記が合体したデータセットを作成したい。

→ 急ぎ。

mC4-ja
- 830GB
- google の mc4 データセットを allenai が前処理したバージョン
CC-100
- 82GB
- facebook 製 XLM-R 用のデータセット
wiki40b_ja
- 1.3GB
（＋α）CulturaX
- 107BT
- mC4とOSCAR
- これを探っていっても良いかも？
（＋α）Swallow コーパス（畠山さん）
★白書（江國
- 河越スクリプトでクロール
★都道府県別の報告書（吉野さん
★国会議案・議事録（和田
★国会答弁（インストラクションデータとしても使えそう）（miwa
★判例（濱田さん

次にやること：

事前学習データセットについて調査実装
- 事前学習データの環境へのダウンロード
- ダウンロードコードのパイプラインへの組み込み
ダウンロード & 日本語抽出
ダウンロードコードをpipelineに組み込む。

スケジュール

4/4　本日

4/7

この日までに、日本語データを/persistentshare/storage/team_kawagoshi/datasetsに落とし込みたい。
英語、コードデータセットは、河越が落とし込む。
- 英語（重複処理）
- コード（ライセンスのフィルタリング）

4/7~4/14

日本語データの前処理（重複削除、フィルタリング）
- 一週間以上、前処理にかかると考えられる。

4/15~22（松尾研環境が使用できるかは予算次第。）

トークナイゼーションは、時間次第。

→ 出来そうであれば、したい。
データのマージ。（学習データ完成）

4/22~24　学習準備（出来ればすぐに、学習したい）

4/25~ 10B学習開始

サブチーム4（アーキテクチャー）

やったこと：

月曜から進捗ありません。

分かったこと：

次にやること：

標準コードで使用されているMegatron-DeepSpeedのソースコードをベースに、llama2に変換する。モデル形式の変換については、　チーム haijimaのソースコードを参考にする。
その後の優先順位で、github repo: MoE-Recipeを参考にしたMOEの実装を検討する。

サブチーム5（学習・評価）

やったこと：

マルチGPUでの学習試行。1nodeでは出来た。
bash 上で複数GPUでの学習確認。
複数nodeはエラーも出ずに停止状態。
Mistralのモデルについて確認。v0.2ではslide attentionが使用されていないので、ほぼLlamaと構造変わらない。rope_thetaの値が少し異なる。

分かったこと：

次にやること：マルチノードを通す。変換後のウェイトの確認。DPO来週。。。

この3つを調査できると良い。（llama, mistralはニシジマさんがほぼ確認済み）

LLaMA
Mistral（sliding windowあり？確認いただける方がいれば）
MoE（アーキテクチャーチームに対応いただきたい。）
- アーキテクチャーチームにコードのチェックもしていただけると良い。

ディスカッション

ノード4, 5をニシジマさんが利用。（複数ノードでの実験）
4/7(日)にファインチューニング、アラインメントデータについて話し合いたい。
- 評価データセットに近いデータ（コンペで勝つため）
- ビジネス的に有用なデータセット（世の中の役に立つ）
  - QAデータセット等（e.g. https://financial-field.com）

松尾研| GENIAC LLM開発プロジェクトPublication

開発テーマ・概要

チーム全体の開発状況

暫定スケジュール

期限

サブチームからの情報共有

サブチーム1（ドキュメント）

サブチーム2（前処理）

サブチーム3（データセット）

スケジュール

サブチーム4（アーキテクチャー）

サブチーム5（学習・評価）

ディスカッション

Discussion