👌
[週次報告] 第1回 Team 天元突破
開発テーマ・概要
開発テーマ
-
メインテーマ
「ハルシネーションが最大限逓減された(最大限自然言語的に自然な言語のみを含ませた事前学習データによって学習された)日本語大規模言語モデルを開発する.」
-
サブテーマ1
「ディベートデータを用いて言語モデルを事後学習することでより高次な論理的思考力をモデルに付与する」
-
サブテーマ2
「MoE(Mixture of Expert)の実装例となるモデルをOSS公開する」
プロジェクト目標
-
全員が成長する.
- できるだけ離脱者を出さず,LLM開発経験者を最大限生産する
-
研究余地や公開意義のある知見を取り出す
- 日程,計算,データなどのリソースは限られるが,最大限アカデミアへの貢献を目指す
-
ハルシネーションの最大限逓減を目指す
- 嘘をできるだけつかないLLM開発へ向け,事前学習データの精査(+RLHF)に挑戦する
メインの参考文献
-
RefinedWeb
The RefinedWeb Dataset for Falcon LLM: Outperforming Curated...
-
コーパスクリーニング
-
Swallowコーパス
東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築
開発状況
- メンバーの個々人の特性に合わせてサブチームに振り分け.コアメンバーにサブチームリーダーを担当してもらう.
- 各サブチームにリーダー補助のアシスタントリーダーを複数人配置
- 能力値の高いメンバーには遊撃部隊としてチームを横断して意向を優先する権利を付与
- 全サブチームを横断的に手助けするサポートチームを用意
チーム構成
-
データコレクションチーム
- 使用するWebコーパスの決定・収集,それ以外のテキストデータの収集を担当
- それぞれのコーパスの性質を理解し,必要なデータを決定し,データキュレーションにも助言する
- 幅広いドメインに関わりのあるチーム
-
データキュレーションチーム
- Webクロールデータを事前学習データへと変換する作業を担当
- 参考文献から従来のフィルタリング手法を参考に,MLやLLM等も駆使し,高品質な事前学習データを作成する.
- LLMによるリフレーズを用いて,データの絶対量を減らさないキュレーションフレームワークを検討する.
- 最も人数配分の大きいチーム
-
モデル・トークナイザーチーム
- 使用するモデルやトークナイザーを決定し,実装する作業を担当
- 標準コードを参考に,transformerベースでMoEを組み合わせたモデルを開発する.
- その他のモデルや学習手法についても検討する.
- 少数精鋭で意思決定の速いチーム
-
サポートチーム
- 文献の整理,Notionの整理,他チームや外部からの知識の整理を行い,全サブチームのサポートを担当する
- 論文を読む能力やキャッチアップ能力の高い学生が中心のチーム
協力団体
- 日本教室ディベート連盟
- 全日本ディベート協会
- 日本ディベート協会
- パーラメンタリーディベート協会
サブチームの状況
コレクションチーム
-
進捗
- LLM-jpコーパスの構築
- ja-wiki:完了
- en-wiki:ダウンロードのみ完了
- ja-cc:AWSでダウンロード中※2日ほど経過したが終わらず
- Pile:著作権の課題あり
- Stack:ライセンスの課題あり
- 収集する事前学習用データセットの全体像の意識合わせ実施
-
目標:4/15までに事前学習に必要な200Bトークンを集める
①:CulturaX ja ダウンロード中(あと1日程度の見込み)
②:mC4 ja LLM-jpコーパス構築にてダウンロード中(終了時期不明)
③:SlimPajama ⇒ダウンロードスクリプト確認中。人海戦術で収集予定
④:数学やコード
-
- LLM-jpコーパスの構築
-
これからやること
- 英語コーパスデータのダウンロード
- trafilaturaでウィクショナリーをクローリング
- クロールするディベートデータ一覧作成
キュレーションチーム
-
進捗
- CommonCrawlからデータを整備
- URLフィルタリング
- ルールベースのフィルタリング
- 重複削除
- 各メンバーの担当作業決定
- その後の作業についても調査・実装に挑戦
-
これからやること
- 期限までに完了することを目標に調査や実装を行う。
モデルチーム
- 進捗
- 標準コードによる事前学習 → プレ環境で事前学習の実行~wandbまでの動作を確認
- +αの実装 → 標準コードを変更してMegatron-DeepSpeedに実装されているMoEの実験に挑戦
- これからやること
- 標準コードを変更して、チームで収集したデータセットでGPTを事前学習できるようにする.
- MoEには引き続き挑戦(Megatron-DeepSpeedで実装できるのか、huggingfaceへの変換はできるのか)
その他
- キャッチアップがしやすい仕組みを整える
- slackチャネルが多い、作業に必要な情報が流れてしまう.
- 対策としてnotionにキャッチアップ用の資料を作る.
- 特にslackの内容のキャッチアップさせるのが困難
- 他チームの様子がわからない.
- Notionが公開されていない
- コンペ要素もあるが,できるだけ公開してほしいとの声
- 外部団体とのディスカッション
- ディベートデータ提供団体との話し合いが終了.
- 既にネット上に公開されているテキストデータ,動画データのみ使用することで合意.
- 今後の研究に繋がったら協力を約束.
Discussion