🐈
[週次報告] 第1回 Team JINIAC
- チーム名:JINIAC
- 日時 :2024年3月26日
1. 開発テーマ・概要
記載者: 中村 仁
- 本プロジェクトでは、日本語の特性を適切に捉えられる大規模言語モデル(LLM)の開発を目指します。
- この目標達成に向けて、以下の3つの領域に対し、重点的に注力しております。
-
データセット
- 良質な日本語データセットの構築が語理解の質を大きく左右する
- 本プロジェクトでは以下のデータを収集し、最適化を図る
- 政府文書
- 国会答弁
- 学術論文
- 知識転移を見据えた独自データセット
- ヒンディー語
- 政府文書
-
モデル構造
- モデル構造の革新が鍵となる
- 以下の検討を行っている
- 従来のTransformerに代わる新構造の検討
- Mamba等のSSM
- Mixtures of Experts(MoE)の活用
- 従来のTransformerに代わる新構造の検討
-
学習手法
- 人間とAIの学習プロセスには大きな隔たりがある
- 以下の新しい学習手法の導入により、人間に近い学習を実現し理解力向上を目指す
- 「繰り返し学習」
- 「カリキュラム学習」
-
データセット
加えて、以下のプロジェクト運営面での工夫も行っています。
- トップダウンとボトムアップの両立
- Notionを活用したプロジェクト管理の最適化
- チームメンバーの心理的安全性の確保
- コミュニケーションの活性化
プロジェクトの目標を達成できれば、以下の成果が期待できると考えています。
- チームメンバーによる共同執筆での論文発表
- NoteやGitHubを通じた積極的な情報公開とLLM人材の育成
日本が世界に誇れるAI技術を持つためには、日本語の豊かな表現を捉えられるLLMの実現が不可欠です。
本プロジェクトはその実現に向け、全力を尽くしてまいります。
2. チーム全体の開発状況
記載者: 中村 仁
- チーム組成が完了し、各サブチームにおける開発が開始しました。
- 現在は、「リサーチと方針策定」の段階であり、各サブチームにおける模索が進められています。
- チーム全体としては、次のような問題点が発生し、その各々に対処を行っています。
- 【問題1】各サブチームにおける「縦割り」化が進んだ
- 各チームから各チームへのメンバー派遣(複数のMTGに参加するメンバーの設置)を実施
- 【問題2】モデル構造とそれに対応する学習方法についてのメンバーを、異なるチームに設置していた
- チーム内の編成による、類似タスクに対する指揮系統の一元化を実施
- 【問題1】各サブチームにおける「縦割り」化が進んだ
- 各サブチームにおける活動をサポートし、チーム全体としての調整をする活動も行っています。
- 次のマネジメントチームの発足を発足させました。
- 情報調査チーム
- 情報収集、情報分析、情報の可視化
- 外務チーム
- 情報の発信、文書の公開範囲設定
- 内務チーム
- チーム内の方(及びチームへ加入される予定の方)の方に対するマネジメント、勉強会の調整
- 情報調査チーム
- マネジメントチームにより、Notionにおける情報管理や、コミュニティメンバーの加入についてのフローの確立への進んでおり、よりよい開発環境とするために活動が進展中です。
- 次のマネジメントチームの発足を発足させました。
3. サブチームからの情報共有
3.1 データ班
記載者: @あとりンゴ @佐藤紘基
3.1.1 やったこと
- 日本語wikipediaを基にsentencepiecce tokenizer v0.1を作成
- 国会議事録のデータセット化
- 標準コード(data_management)のドキュメント作成
- Common Crowlの収集(畠山Tに協力する形)
3.1.2 分かったこと
- 時間がないため(畠山Tなど他Tと)協力するところと差分を出すところを明確にしていくことが重要
3.1.3 次やること
- MeCabを活用したtokenizer v0.2を作成
- 標準コードをプレ環境で実行し知見を溜めていく
- 利用可能なデータセットのサーベイ
- ヒンディー語のクリーニング
3.2 学習・コード班
記載者: @佐藤紘基 @あとりンゴ @Shoji Iwanaga
3.2.1 やったこと
- 標準コード(学習部分)のドキュメント作成
- 標準コードの実行
- mergekitの調査とドキュメント作成
3.2.2 分かったこと
- 全体コード作成メンバー + モデル班への派遣メンバー + データ班への派遣メンバーという構成にする
3.2.3 次やること
- MoE-recipeの調査
- 標準コード改造についての案出し
- カリキュラム学習の調査
- GitHubのオーガナイゼーションの作成
- wandbの勉強会の実施
3.3 モデル班
記載者: @KoikeKaito
3.3.1 やったこと
- MoEに関するメンバー間での知識共有
- MoEを実装する場合のコード調査
- 各種活用候補のモデルについての調査
3.3.2 分かったこと
- MoE作成コードの理解
- 学習・コード班とのすみ分けの明確化
3.3.3 次やること
- Mambaに関する勉強会の実施、実装調査
- MoE実装への着手
Discussion