🔥

[週次報告] 第5回 Team 天元突破

松尾研 LLM開発 GENIAC

2024/05/02に公開

開発テーマ・概要

開発テーマ

メインテーマ
「ハルシネーションが最大限逓減された(最大限自然言語的に自然な言語のみを含ませた事前学習データによって学習された)日本語大規模言語モデルを開発する．」
サブテーマ1
「ディベートデータを用いて言語モデルを事後学習することでより高次な論理的思考力をモデルに付与する」
サブテーマ2
「MoE(Mixture of Expert)の実装例となるモデルをOSS公開する」

プロジェクト目標

全員が成長する．
- できるだけ離脱者を出さず，LLM開発経験者を最大限生産する
研究余地や公開意義のある知見を取り出す
- 日程，計算，データなどのリソースは限られるが，最大限アカデミアへの貢献を目指す
ハルシネーションの最大限逓減を目指す
- 嘘をできるだけつかないLLM開発へ向け，事前学習データの精査(+RLHF)に挑戦する

メインの参考文献

RefinedWeb

The RefinedWeb Dataset for Falcon LLM: Outperforming Curated...
コーパスクリーニング
Swallowコーパス

東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築

開発状況

メンバーの個々人の特性に合わせてサブチームに振り分け．コアメンバーにサブチームリーダーを担当してもらう．
各サブチームにリーダー補助のアシスタントリーダーを複数人配置
能力値の高いメンバーにはサテライトコアメンバーとしてチームを横断して意向を優先する権利を付与
全サブチームを横断的に手助けするサポートチームを用意
サポートチームアシスタントリーダーを用意．

チーム構成

データコレクションチーム
- 使用するWebコーパスの決定・収集，それ以外のテキストデータの収集を担当
- それぞれのコーパスの性質を理解し，必要なデータを決定し，データキュレーションにも助言する
- 幅広いドメインに関わりのあるチーム
データキュレーションチーム
- Webクロールデータを事前学習データへと変換する作業を担当
- 参考文献から従来のフィルタリング手法を参考に，MLやLLM等も駆使し，高品質な事前学習データを作成する．
- LLMによるリフレーズを用いて，データの絶対量を減らさないキュレーションフレームワークを検討する．
- 最も人数配分の大きいチーム
モデル・トークナイザーチーム
- 使用するモデルやトークナイザーを決定し，実装する作業を担当
- 標準コードを参考に，transformerベースでMoEを組み合わせたモデルを開発する．
- その他のモデルや学習手法についても検討する．
- 少数精鋭で意思決定の速いチーム
サポートチーム
- 文献の整理，Notionの整理，他チームや外部からの知識の整理を行い，全サブチームのサポートを担当する
- 論文を読む能力やキャッチアップ能力の高い学生が中心のチーム

協力団体

日本教室ディベート連盟
全日本ディベート協会
日本ディベート協会
パーラメンタリーディベート協会

サブチームの状況

コレクションチーム

進捗
- 4/22本番環境スタートに向けた収集したデータセットのDL・マージ作業実施
  - 英語（SlimPajama CC/C4/Wiki/Arxiv）
  - コード（Proof-Pile-2 Algebraic-stack Python）
  - 数学（Proof-Pile-2 Open-web-math）
- 事後学習データセット
  - PDF2Text
    - プログラムのGitHubへアップ完了
  - Voice2Text
    - 実データを確認中
    - 校正ルール作成に向けて、4/21 Ozakiリーダーと議論
    - https://matsuokenllmcommunity.slack.com/archives/C06P286LBUY/p1713686859078609?thread_ts=1713613122.878309&cid=C06P286LBUY
    - https://docs.google.com/spreadsheets/d/1g-9sbGrLXOiqiThS2rFm0vaK3lElpEE2WoKWYLkC5bY/edit#gid=0
      - コレクションチームメンバである程度作業が定型化してきたら、他のチームメンバにも協力いただきたい
これからやること
- 事後学習データセットの調査、選定：～4末
- 事後学習データセットの作成：～5/10に200件完了を目標

キュレーションチーム

進捗
- 完了済み
  - 重複排除
  - ルールベースフィルタリング
  - LLM Rephrasing
  - 試験対策のスクレイピング
- 進行中
  - Wikitionaryのキュレーション
    - [Wiktionaryのキュレーション](https://www.notion.so/Wiktionary-7ddf1b316c9b4af3a98bc3ddf2e643ad?pvs=21)
    - データの用意明日中
    - 竹下) 現在取得済みのデータに対してルールベースフィルタリングを適用してデータ量やフィルタリング結果を確認
      - Otsukaさんに相談してフィルタリングの検討
      - Someyaさんへ明日4/22(月)12時に一度進捗報告
  - 学習コーパスの作成
    - 日本語事前学習コーパス作成
これからやること
- 事後学習データの準備

モデルチーム

進捗
- 事前学習に向けた準備をしていました
  - MoEを最後まで検討していましたが、本番で使用できる状態まで時間内に至れず、採用は見送りとする予定です。本番は標準コードベースに少し手を加えたllama2ベースでいく予定です。
  - トークナイザーやモデルを稼働させるのに必要な検証も同時に進めました
- 本番環境での検証を行いました
  - シングルノードマルチGPUでの動作検証まで終えています
これからやること
- 本番環境での事前学習を開始させます(4/24目処に終えたい)
  - マルチノード、サイズの大きいモデルでの検証
  - トークナイザーの作成
  - パラメータの最終決定
  - 使用する実験リソースの最終決定
- 事前学習の残タスクを進めたい
  - 学習途中のcheckpointの出力を確認する仕組みの構築
- 事後学習の準備を開始したい
  - 学習手法の調査
- (少なくとも)モデルチームのメンバーのshioyaさん以外の人で環境を持っておく

サポートチーム

進捗
- 使えそうな事後学習データセット
  - 事後学習データについての調査
- 他チームの偵察は一時休止
  - 他チームは事後学習について今週から始動
  - hatakeyamaチームは自作データセットを作成中
    - mixtral 8x22b instを使用してQ&Aを自動生成
    - 人手により1000件程度のデータセットを作成
これからの流れ
- コレクションチームの要望の確認
- 自作する場合の人手

その他

開発のマイルストーン

データ準備
- 事前学習データの準備は完了

- 事後学習データの作成準備中

モデル学習コード準備
- llamaベースのモデルで実装完了
シングルGPUでの稼働確認、実績
- 標準コードで確認
マルチノードでの稼働確認、実績
- 標準コードで確認
うまくいきそうか計画の確信度
- やりたいことはできてきている．

松尾研| GENIAC LLM開発プロジェクトPublication

開発テーマ・概要

開発テーマ

プロジェクト目標

メインの参考文献

開発状況

チーム構成

協力団体

サブチームの状況

コレクションチーム

キュレーションチーム

モデルチーム

サポートチーム

その他

開発のマイルストーン

Discussion