👌

[週次報告] 第1回 Team 天元突破

2024/03/28に公開

開発テーマ・概要

メインテーマ

「ハルシネーションが最大限逓減された(最大限自然言語的に自然な言語のみを含ませた事前学習データによって学習された)日本語大規模言語モデルを開発する．」
サブテーマ1

「ディベートデータを用いて言語モデルを事後学習することでより高次な論理的思考力をモデルに付与する」
サブテーマ2

「MoE(Mixture of Expert)の実装例となるモデルをOSS公開する」

データコレクションチーム
- 使用するWebコーパスの決定・収集，それ以外のテキストデータの収集を担当
- それぞれのコーパスの性質を理解し，必要なデータを決定し，データキュレーションにも助言する
- 幅広いドメインに関わりのあるチーム
データキュレーションチーム
- Webクロールデータを事前学習データへと変換する作業を担当
- 参考文献から従来のフィルタリング手法を参考に，MLやLLM等も駆使し，高品質な事前学習データを作成する．
- LLMによるリフレーズを用いて，データの絶対量を減らさないキュレーションフレームワークを検討する．
- 最も人数配分の大きいチーム
モデル・トークナイザーチーム
- 使用するモデルやトークナイザーを決定し，実装する作業を担当
- 標準コードを参考に，transformerベースでMoEを組み合わせたモデルを開発する．
- その他のモデルや学習手法についても検討する．
- 少数精鋭で意思決定の速いチーム
サポートチーム
- 文献の整理，Notionの整理，他チームや外部からの知識の整理を行い，全サブチームのサポートを担当する
- 論文を読む能力やキャッチアップ能力の高い学生が中心のチーム

進捗
- 標準コードによる事前学習 → プレ環境で事前学習の実行~wandbまでの動作を確認
- +αの実装 → 標準コードを変更してMegatron-DeepSpeedに実装されているMoEの実験に挑戦
これからやること
- 標準コードを変更して、チームで収集したデータセットでGPTを事前学習できるようにする．
- MoEには引き続き挑戦(Megatron-DeepSpeedで実装できるのか、huggingfaceへの変換はできるのか)

キャッチアップがしやすい仕組みを整える
- slackチャネルが多い、作業に必要な情報が流れてしまう．
- 対策としてnotionにキャッチアップ用の資料を作る．
- 特にslackの内容のキャッチアップさせるのが困難
他チームの様子がわからない．
- Notionが公開されていない
- コンペ要素もあるが，できるだけ公開してほしいとの声
外部団体とのディスカッション
- ディベートデータ提供団体との話し合いが終了．
- 既にネット上に公開されているテキストデータ，動画データのみ使用することで合意．
- 今後の研究に繋がったら協力を約束．