📝

[週次報告] 第2回 Team 天元突破

松尾研 LLM開発 GENIAC

2024/05/02に公開

週次報告フォーマット

チーム名
日時

開発テーマ・概要

<自分のチームはどういうことをやっているか>

チーム全体の開発状況

<自分のチームは、今週までどのような状態になっているか>

サブチームからの情報共有

サブチーム1

やったこと

分かったこと

次やること

サブチーム2

やったこと

分かったこと

次やること

……

ディスカッション

<コミュニティ外の方とのディスカッションなどあればここに記入>

その他

直近の全体定例MTG

全体定例MTG_0401.mp4

開発テーマ・概要

開発テーマ

メインテーマ

「ハルシネーションが最大限逓減された(最大限自然言語的に自然な言語のみを含ませた事前学習データによって学習された)日本語大規模言語モデルを開発する．」
サブテーマ1

「ディベートデータを用いて言語モデルを事後学習することでより高次な論理的思考力をモデルに付与する」
サブテーマ2

「MoE(Mixture of Expert)の実装例となるモデルをOSS公開する」

プロジェクト目標

全員が成長する．
- できるだけ離脱者を出さず，LLM開発経験者を最大限生産する
研究余地や公開意義のある知見を取り出す
- 日程，計算，データなどのリソースは限られるが，最大限アカデミアへの貢献を目指す
ハルシネーションの最大限逓減を目指す
- 嘘をできるだけつかないLLM開発へ向け，事前学習データの精査(+RLHF)に挑戦する

メインの参考文献

RefinedWeb

The RefinedWeb Dataset for Falcon LLM: Outperforming Curated...
コーパスクリーニング
Swallowコーパス

東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築

開発状況

メンバーの個々人の特性に合わせてサブチームに振り分け．コアメンバーにサブチームリーダーを担当してもらう．
各サブチームにリーダー補助のアシスタントリーダーを複数人配置
能力値の高いメンバーにはサテライトコアメンバーとしてチームを横断して意向を優先する権利を付与
全サブチームを横断的に手助けするサポートチームを用意
サポートチームにアシスタントリーダーを用意．

チーム構成

データコレクションチーム
- 使用するWebコーパスの決定・収集，それ以外のテキストデータの収集を担当
- それぞれのコーパスの性質を理解し，必要なデータを決定し，データキュレーションにも助言する
- 幅広いドメインに関わりのあるチーム
データキュレーションチーム
- Webクロールデータを事前学習データへと変換する作業を担当
- 参考文献から従来のフィルタリング手法を参考に，MLやLLM等も駆使し，高品質な事前学習データを作成する．
- LLMによるリフレーズを用いて，データの絶対量を減らさないキュレーションフレームワークを検討する．
- 最も人数配分の大きいチーム
モデル・トークナイザーチーム
- 使用するモデルやトークナイザーを決定し，実装する作業を担当
- 標準コードを参考に，transformerベースでMoEを組み合わせたモデルを開発する．
- その他のモデルや学習手法についても検討する．
- 少数精鋭で意思決定の速いチーム
サポートチーム
- 文献の整理，Notionの整理，他チームや外部からの知識の整理を行い，全サブチームのサポートを担当する
- 論文を読む能力やキャッチアップ能力の高い学生が中心のチーム

協力団体

日本教室ディベート連盟
全日本ディベート協会
日本ディベート協会
パーラメンタリーディベート協会

サブチームの状況

コレクションチーム

進捗
- 上記資料の通り、データセットを収集してきているが、共有ディスクの5TB制限が課題
  - SlimPajamaが大きなデータセット
  - 本番環境へのデータ移行を見据えて、別環境にデータ蓄積可能か検討中
    - 他チームとのファイル共有方法が課題
これからやること
- 数学やコード系のデータセット調査と収集

キュレーションチーム

進捗

キュレーションチームMTG_0328
- URLフィルタリング
  - 一段落
- ルールベースフィルタリング
  - 手伝い募集中（←キュレーションチーム内）
  - https://matsuokenllmcommunity.slack.com/archives/C06N6R82G3G/p1711860146181189?thread_ts=1711188071.818979&channel=C06N6R82G3G&message_ts=1711860146.181189
- 重複排除
- CommonCrawlダウンロード
  - 1週間で1800/9000くらい完了
    - 手伝い募集中
      - https://matsuokenllmcommunity.slack.com/archives/C06MGP6ST52/p1711352199637259
これからやること
- 次回定例MTG 4/4（木）
- チームごとに割り振られたタスクを継続して調査。

モデルチーム

進捗
- 収集いただいたデータ(wiki ja)の一部を使って標準コードの動作を確認しました
- Megatron DeepSpeedのMoEが使えないか調査していますが、うまく動作しないのでもう少し続けてダメだったら代替案を考えるかもしれません
- 先週話していたキャッチアップ資料のモデルチーム版を作成しました
これからやること
- 標準コードで利用データの拡大およびマルチGPUでの学習を行い、動作確認と実行時間の確認を行います。
- MoEの調査を続けます。Megatron DeepSpeedでだめだった場合は代替案(他のライブラリ)を検討します。
- 事後学習の練習も開始します。huggingfaceにある既存モデルのfine-tuningの通じて、事後学習での精度改善のポイントを探索します。
- 事前学習の精度改善アイデアは引き続き調査します。

その他

マルチGPUに関する案内が想定していた内容と違ったのですが、リーダー通じて問い合わせてもらっても良いでしょうか？(とりあえずgeniac_07_dev_envには書いた)
- ノードではなくGPU数が3つまでになっている
- マルチノードについての言及なし
- ミス？
GPU時間がどれくらい制限きついかってリーダーには情報入ってたりしますか？
- ストレージ容量のほうが，お金的にきついとのこと．．．

松尾研| GENIAC LLM開発プロジェクトPublication

週次報告フォーマット

開発テーマ・概要

チーム全体の開発状況

サブチームからの情報共有

サブチーム1

サブチーム2

ディスカッション

その他

開発テーマ・概要

開発テーマ

プロジェクト目標

メインの参考文献

開発状況

チーム構成

協力団体

サブチームの状況

コレクションチーム

キュレーションチーム

モデルチーム

その他

Discussion