🍣

チーム「たぬき」ゴールデンウィークの現況

2024/05/07に公開

はじめに

チーム「たぬき」です。週レポート以外では初の投稿になります!
今後ともどうぞよろしくお願いします。

チーム紹介

チーム「たぬき」は、東工大の畠山先生を中心に、Openに、Give, give, give, …, (and take) の精神で、大規模言語モデルとそのデータセットを開発しています。
セキュリティ、著作権に関わる事項を除き、原則としてオープンに開発する方針を取っておりまして、プロジェクトやチーム外からの参加協力も大いに歓迎しております。

チーム名「たぬき」の由来

こちらは、2024/03/02に行われたキックオフ(オフ会)の会話を皮切りにワイワイやりながら議論しました。最後はSlack上で決戦?投票があり、たぬきが選ばれました。

  1. たぬき
  2. きつね
  3. たわし
  4. Tree
  5. Ichou
  6. Ginkgo

ちなみに投票結果は12票、2票、1票、1票、5票、1票でした。

特に力を入れていること

チーム「たぬき」では、上質な日本語データベースの構築と活用に焦点を当てています。具体的には、以下を行っています。

  1. 高品質な日本語テキストデータを大規模に収集・加工し、大規模言語モデルの事前学習に適したデータセットの作成
  2. 各種の言語処理技術と人手をミックスした方法による指示データの作成
    こちらはキックオフ前にも畠山リーダより説明がありましたので、チームメンバの中にもデータ作成に興味を持って参加している方が多くいらっしゃるのではないかと思います。

チーム編成

3/2(土)の全体キックオフで懇親を深めた後、3/4(月)に早速キックオフを行ってチーム編成を決めました。現在、以下の4チームに分かれて並行して作業を進めています。

  1. 指示データセット:Insturuction Tuning用データセット収集・加工・作成を行う班(リーダーKatakami Shunさん)、p1atdevさんのMinnadeChatも稼働中!
  2. 事前学習データセット:事前学習に用いるデータセットの収集・加工を行う班(リーダーNamiuchiさん、サブリーダ山田涼太さん)
  3. Code:チーム用のコード構築、コード実行時の計算量や所要時間予測(リーダー林寛太さん、アドバイザーAtsushi Saitoさん)
  4. 遊撃班:プロジェクトに必要な様々なことを実行(リーダーshusaku soneさん)
    各サブチームとも着実、というよりは寝る間も惜しんで超高速に進捗を上げており、ライティング班?はついていくのに必死ですw

コミュニケーション

どこのチームも概ねそうなるかな、と思いますが、主には以下の3つです。更に素早く議論したいトピックがあるときにはZoom会議が別途設定されることもあります。

  • 週一回の全体MTG (火曜日18:00~ Zoom)
  • サブチームごとのミーテイング
  • Slackでのスピーディーな議論

ちなみに、この業界?によく見られる通り、昼夜問わずSlackするとすぐに連絡がつく傾向にありますw ただしGW中はAM5:00 - 8:00の間、投稿が減る傾向にありました。

現況

Phase1開始の4/22から約2週間、ようやく10B前後のサイズのモデルの事前学習が安定してきました。
ここに至るまでの苦闘は、技術的トレードオフ検討&実験結果、という形で、知見としてまとめていきたいと思ってます。

しかし、ひと息ついている暇はありません・・・。予想では、5/10ぐらいには事前学習が終わると思われますので、そこからファインチューニングに入れるよう、それまでに指示データを速攻で作らねばなりません汗

これから

事前学習が進んでいる最中ですが、高性能な日本語大規模言語モデルを構築するには高品質な日本語の指示データセットが不可欠です。指示データセットチームを中心に、高品質なデータセットを作成するための枠組みを開発し、データ作成に取り組んでいます。

お誘い

チーム「たぬき」では、今後数年利用できる質の高いインストラクションデータセットの構築を目指しておりまして、そこでもオープンに協力を募集しております。

今、MinnadeChatというWebサービスを開始し、より入力しやすい形でデータを集めています。ご興味ある方は、何か1個、質問と回答の対を入れてみませんか?
https://minnade.chat/

Discussion