🐈

[週次報告] 第1回 Team JINIAC

2024/04/11に公開
  • チーム名:JINIAC
  • 日時  :2024年3月26日

1. 開発テーマ・概要

記載者: 中村 仁

  • 本プロジェクトでは、日本語の特性を適切に捉えられる大規模言語モデル(LLM)の開発を目指します。
  • この目標達成に向けて、以下の3つの領域に対し、重点的に注力しております。
    1. データセット
      • 良質な日本語データセットの構築が語理解の質を大きく左右する
      • 本プロジェクトでは以下のデータを収集し、最適化を図る
        • 政府文書
          • 国会答弁
        • 学術論文
        • 知識転移を見据えた独自データセット
          • ヒンディー語
    2. モデル構造
      • モデル構造の革新が鍵となる
      • 以下の検討を行っている
        • 従来のTransformerに代わる新構造の検討
          • Mamba等のSSM
        • Mixtures of Experts(MoE)の活用
    3. 学習手法
      • 人間とAIの学習プロセスには大きな隔たりがある
      • 以下の新しい学習手法の導入により、人間に近い学習を実現し理解力向上を目指す
        • 「繰り返し学習」
        • 「カリキュラム学習」

加えて、以下のプロジェクト運営面での工夫も行っています。

  • トップダウンとボトムアップの両立
  • Notionを活用したプロジェクト管理の最適化
  • チームメンバーの心理的安全性の確保
  • コミュニケーションの活性化

プロジェクトの目標を達成できれば、以下の成果が期待できると考えています。

  1. チームメンバーによる共同執筆での論文発表
  2. NoteやGitHubを通じた積極的な情報公開とLLM人材の育成

日本が世界に誇れるAI技術を持つためには、日本語の豊かな表現を捉えられるLLMの実現が不可欠です。

本プロジェクトはその実現に向け、全力を尽くしてまいります。

2. チーム全体の開発状況

記載者: 中村 仁

  • チーム組成が完了し、各サブチームにおける開発が開始しました。
    • 現在は、「リサーチと方針策定」の段階であり、各サブチームにおける模索が進められています。
    • チーム全体としては、次のような問題点が発生し、その各々に対処を行っています。
      • 【問題1】各サブチームにおける「縦割り」化が進んだ
        • 各チームから各チームへのメンバー派遣(複数のMTGに参加するメンバーの設置)を実施
      • 【問題2】モデル構造とそれに対応する学習方法についてのメンバーを、異なるチームに設置していた
        • チーム内の編成による、類似タスクに対する指揮系統の一元化を実施
  • 各サブチームにおける活動をサポートし、チーム全体としての調整をする活動も行っています。
    • 次のマネジメントチームの発足を発足させました。
      1. 情報調査チーム
        1. 情報収集、情報分析、情報の可視化
      2. 外務チーム
        1. 情報の発信、文書の公開範囲設定
      3. 内務チーム
        1. チーム内の方(及びチームへ加入される予定の方)の方に対するマネジメント、勉強会の調整
    • マネジメントチームにより、Notionにおける情報管理や、コミュニティメンバーの加入についてのフローの確立への進んでおり、よりよい開発環境とするために活動が進展中です。

3. サブチームからの情報共有

3.1 データ班

記載者: @あとりンゴ @佐藤紘基

3.1.1 やったこと

  • 日本語wikipediaを基にsentencepiecce tokenizer v0.1を作成
  • 国会議事録のデータセット化
  • 標準コード(data_management)のドキュメント作成
  • Common Crowlの収集(畠山Tに協力する形)

3.1.2 分かったこと

  • 時間がないため(畠山Tなど他Tと)協力するところと差分を出すところを明確にしていくことが重要

3.1.3 次やること

  • MeCabを活用したtokenizer v0.2を作成
  • 標準コードをプレ環境で実行し知見を溜めていく
  • 利用可能なデータセットのサーベイ
  • ヒンディー語のクリーニング

3.2 学習・コード班

記載者: @佐藤紘基 @あとりンゴ @Shoji Iwanaga

3.2.1 やったこと

  • 標準コード(学習部分)のドキュメント作成
  • 標準コードの実行
  • mergekitの調査とドキュメント作成

3.2.2 分かったこと

  • 全体コード作成メンバー + モデル班への派遣メンバー + データ班への派遣メンバーという構成にする

3.2.3 次やること

  • MoE-recipeの調査
  • 標準コード改造についての案出し
  • カリキュラム学習の調査
  • GitHubのオーガナイゼーションの作成
  • wandbの勉強会の実施

3.3 モデル班

記載者: @KoikeKaito

3.3.1 やったこと

  • MoEに関するメンバー間での知識共有
  • MoEを実装する場合のコード調査
  • 各種活用候補のモデルについての調査

3.3.2 分かったこと

  • MoE作成コードの理解
  • 学習・コード班とのすみ分けの明確化

3.3.3 次やること

  • Mambaに関する勉強会の実施、実装調査
  • MoE実装への着手

Discussion