🎥

【特別企画】松尾研GENIACプロジェクト「チームビジネス」メンバーにインタビュー!その熱意と挑戦の裏側に迫る(その1)

2024/05/28に公開

はじめに

こんにちは、松尾研GENIACプロジェクト、チームビジネスの福田です。

東京大学松尾研究室にて、経済産業省によるGENIACの国産大規模言語モデル(Large Language Model: LLM)開発に参加しています。

チームビジネスの概要については以下をご覧ください。
https://zenn.dev/matsuolab/articles/e15ace8ffc74c2

今回は特別企画として、現在進行中の大規模言語モデル(LLM)開発プロジェクトに参加しているメンバー数名に独占インタビューを行いました。彼らの参加動機や、プロジェクトの内側で起きている出来事、感じたやりがいや苦労話などを赤裸々に語っていただきました。AI開発の最前線で奮闘する彼らの生の声をお届けします。

プロジェクト概要


弊チームプレゼン(前処理チームリーダー小川さん)@キックオフMTG

本プロジェクトの目的は以下の通りです。

  • 日本国内に100名規模のLLM開発経験者を育成する。
  • 透明性の高い情報公開やコミュニティの運用により開発メンバー以外にもデータや開発ノウハウを普及させる。
  • 50Bの日本語LLMを開発、公開する事で社会貢献および国内のLLM実装を加速させる。

詳細はこちらをご覧ください。
https://weblab.t.u-tokyo.ac.jp/geniac_llm/

通常、LLMの開発には膨大な計算リソースとデータが必要とされ、個人や小規模なチームではハードルが高いのが実情です。しかし今回のプロジェクトでは、クラウドの計算リソースを活用することで、そうした障壁を乗り越えようとしています。さらに、各メンバーが持つ多様な専門知識を結集し、協力し合いながら開発を進めている点も大きな特徴です。

こうした新しい取り組み方は、AI開発の民主化とも言うべき動きの一環と捉えることができるでしょう。大企業や研究機関だけでなく、有志の開発者たちが力を合わせてLLMの開発に挑戦する。そんな彼らの努力は、AIの可能性を多くの人々に開くものとなるかもしれません。

インタビューの概要

今回インタビューを行ったメンバーは以下の5名です。

  • 河越さん: リーダー
  • 江國さん: サブリーダー(データセット)
  • 植木さん: サブリーダー(ドキュメント)
  • RYOTAさん: モデル・学習チームメンバー
  • Aoiさん: 前処理・データセットチームメンバー

プロジェクトを構成する各チームからバランスよくメンバーを選出することで、プロジェクト全体の様子をより立体的に捉えられればと考えています。リーダークラスの方々や、開発の最前線で奮闘するメンバーの生の声もお届けできれば幸いです。

参加動機:AIへの情熱


左からRYOTAさん,植木さん,Aoiさん,河越さん,江國さん
インタビューに応じてくれたメンバー全員に共通していたのは、AI、特にLLMに対する強い興味と情熱でした。RYOTAさんは「AIの研究をしており、LLMの事前学習に取り組みたかった」と話します。実際、RYOTAさんは現在大学院でAIを研究しており、LLMの事前学習に強い関心を抱いていたそうです。

Aoiさんも「LLMについて知見を持っている人と会いたかった」と参加動機を語ってくれました。普段はコンサルティング会社でLLMの研究支援に携わっているそうですが、社内だけでは得られない知見を求めてこのプロジェクトに飛び込んだのだとか。「事前学習だけでなく、私にとっては興味深い分野」だと、Aoiさんは目を輝かせます。

中には江國さんのように「過去にAI案件に携わった経験から、もっと自由にAIを扱いたいと考えていた」というメンバーもいます。広告代理店時代のAI案件では、「制約が多くて、自分の思うようにできなかった」のだそう。以来、もっと自由にAIを扱える機会を求めていたという江國さん。2023年にサマースクールに参加し、より本格的にLLM開発に取り組みたいと考えるようになったそうです。

プロジェクトの立ち上げ段階から関わっている植木さんは「ChatGPTやGPTのAPIなどで利用者として使うことはあったが、LLM開発は個人では関われる機会がないと思っていた」と当時を振り返ります。「なので、開発プロジェクトを知ってすぐに申し込みました」と、植木さんはその決断の背景を説明してくれました。

彼らの参加動機からは、最新技術への興味だけでなく、その技術をより深く、自由に扱いたいという強い意欲が感じられました。LLMはまだ新しい技術であり、未知の可能性に満ちています。その可能性を自分の手で切り拓いていきたい。彼らのモチベーションの源泉は、そこにあるのかもしれません。

熱意の裏側:膨大な学習時間

とはいえ、LLMの開発は簡単な作業ではありません。メンバーたちは皆、本業を持ちながらプロジェクトに参加しています。そんな中でも彼らは、週に10時間から30時間もの時間をプロジェクトに費やしているのです。

「仕事をしながらの参加だが、週20時間ちょっとはプロジェクトに時間を使っている」と話すのは江國さん。データセット担当のサブリーダーとして、期限までにデータを集める必要があるそうです。「若干プレッシャーを感じています」と苦笑いしつつも、江國さんは真剣な表情で語ります。「でも、この経験は自分にとって貴重なもの。頑張るしかないですよね」。

データセットチームリーダー江國さん
RYOTAさんも仕事と研究の合間を縫って、プロジェクトに参加しているそうです。「研究とプロジェクトのタスクが被ってきて、どっちがどっちだかわからなくなることも」と明かしてくれました。それでも「週10〜20時間は何とか捻出している」とのこと。「興味のあることだからこそ、時間を作れるんですよね」と RYOTAさん。その表情からは、LLM開発への並々ならぬ情熱が伝わってきます。

プロジェクトリーダーの河越さんに至っては「週に20〜30時間は当たり前」とのこと。普段は会社員として働く河越さんですが、プロジェクトにかける情熱は誰にも負けないようです。「LLMにはビジネス利用の大きな可能性がある。その実現に向けて、チームを牽引していきたい」と力強く語ってくれました。

チーム内対面開発の様子: 河越さん(左上)

こうした熱意と努力の積み重ねがあってこそ、プロジェクトは前に進んでいるのです。メンバーたちの献身的な姿勢には、頭が下がる思いです。

やりがいと充実感

そんな多大な努力の先にあるのは、大きなやりがいと充実感です。RYOTAさんは「自分の興味ある内容を実際に試せて、動かせること」にやりがいを感じると言います。「BTX(ブランチトレインミックス)と呼ばれる、異なる分野の事前学習済みモデルを組み合わせる実験をチームで行いました。うまくいくかドキドキしましたが、実際に動かせた時は本当に嬉しかったです」と、実験の様子を楽しそうに話してくれました。
https://arxiv.org/abs/2403.07816
https://sakana.ai/evolutionary-model-merge-jp/

Aoiさんも「今までと全く違う領域の仕事を、バックグラウンドの異なる方々と一緒に取り組めること」を喜びとして挙げてくれました。「普段の仕事では、同じ会社の人としかコラボレーションする機会がない。でも今回は業界も専門も全く違う人たちと一緒に、新しいものを作っている。刺激的でワクワクするんです」。Aoiさんの目はまさに、好奇心と情熱に溢れていました。

江國さんは「事前学習の環境構築を手伝い、学習が開始できたことに達成感を覚えた」と語ります。「環境構築は地味な作業ですが、これがないと何も始まらない。だからこそ、学習がスタートした時は本当に嬉しかったです」。その言葉からは、縁の下の力持ち的な存在として、チームを支える江國さんの献身性が伝わってきます。

植木さんは、メンバーの活躍ぶりに感銘を受けたと言います。「仕事でAIやLLMをやっていない人、LLMを学びはじめて1年も経過していないメンバーが活躍している」のだとか。「LLMに関しての知識や経験はとても大切で、それゆえ私自身もその点を高いハードルだと感じていました。しかしLLMの開発を通じて、それらよりも熱意やコミットメントが重要だと感じました」。技術的なスキルだけでなく、情熱こそがプロジェクトを前に進める原動力なのかもしれません。

メンバーたちが口を揃えて言うのは「1人では決してできないような大規模なタスクを、仲間と一緒にこなしていく充実感」です。個人の力では到底及ばないような高い目標に向かって、チームで力を合わせる。そこにはきっと、ひとつのものを協力して作り上げる達成感があるのでしょう。プロジェクトを通して、メンバーたちは確実に成長しているようです。

チーム開発ならではの苦労


対面チーム開発の様子

もちろん、チームでの開発にはつきものの苦労もあります。江國さんは「メンバーのスキルやコミット量にバラつきがあり、マネジメントに苦労した」と打ち明けてくれました。

「タスクを誰に振るべきか、いつも迷います。得意分野や興味のある領域は人それぞれですからね」と江國さん。加えて「全員がフルコミットできるわけではないので、メンバーのスケジュールを考慮しながらタスクを割り振るのも難しい」のだそう。こうした悩みは、リーダーならではのものかもしれません。

江國さん以外のメンバーからも、コミュニケーションの難しさを指摘する声が聞かれました。「LLMの知識や開発経験が人によって大きく異なるので、議論がかみ合わないことがある」(RYOTAさん)、「オンラインだと相手の反応がわかりづらく、誤解が生じがち」(Aoiさん)など、リモートワークならではの課題も浮き彫りになりました。

植木さんは、こうした課題に対するアプローチについて語ってくれました。「多くの方が無償でこのプロジェクトに参加されているので、各メンバーのモチベーションに合った進め方が大切だと考えています」。メンバーのバックグラウンドや事情に寄り添いながら、チームをまとめていく。それは決して容易なことではありませんが、植木さんはそこに努力を惜しまないようです。

それでもメンバーたちは、できる限りミーティングの場を設けたり、Slack等のコミュニケーションツールを活用したりしながら、より良いチームワークを目指しているそうです。「プロジェクトを通して、改めてコミュニケーションの大切さを実感しています」と河越さん。「立場や考え方の違いを乗り越えて、ひとつのものを作り上げていく。それがチームだと、身に染みてわかりました」。


チームビジネスの組織構成

単にLLMを開発するだけでなく、チームとしても成長していく。プロジェクトは、メンバーたちに多くの学びをもたらしているようです。

新たな発見と可能性

プロジェクトを通して、メンバーたちは多くの発見もしたようです。RYOTAさんは「モデルのマージは思ったより難しく、期待通りの結果を得るのは簡単ではない」と技術的な課題を指摘します。「キラキラした理想を描いていましたが、実際にやってみると厳しい現実が待っていました」と苦笑い。「でもそれもまた、貴重な学びです。甘い夢想は脇に置いて、地に足をつけて開発に取り組もうと思います」。

Aoiさんは「新しいライブラリや、普段使わない計算資源を用いた学習方法を体験できた」と新鮮な驚きを語ってくれました。「ドメインは違えど、他分野の技術を応用できる可能性を感じました。横串を刺すようなアプローチこそ、イノベーションの種になるのかもしれません」。

江國さんは著作権処理の困難さを挙げつつ「データの制約の中で精度を出すのは難しい課題」と、LLM開発の奥深さを感じたようです。「公開されているデータセットは思ったほどクリーンではなく、そのままでは使えないことが多い。かと言って、クリーニングの際に著作権の問題が立ちはだかる。'データは新しい石油'などと言われますが、その『採掘』は思ったより大変でした」。データをいかに確保し、加工していくか。それは技術的な課題であると同時に、倫理的・法的な問いでもあるのかもしれません。

植木さんは「LLMの開発を通じて、知識や経験よりも熱意やコミットメントが重要だと感じた」と振り返ります。「インタビューをする中で多くのメンバーがそれを口にしており、私もそのように強く感じました」。多様なバックグラウンドを持つメンバーが、情熱を原動力に力を合わせる。そこに、新たな可能性が開けるのかもしれません。

彼らの発言からは、困難な課題も新たな気づきのチャンスになるという、挑戦者ならではの前向きな姿勢が読み取れます。

目指す未来

ここまで紹介してきたように、メンバーたちは様々な苦労や発見を重ねながら、プロジェクトを前に進めています。AI開発の最前線に立つ彼らが目指すのは、より自由に、よりクリエイティブにAIを活用できる世界です。


チームビジネスのLLM開発方針

河越さんは「LLMをビジネスの様々な場面で活用し、人々の生活をより豊かにしたい」と壮大なビジョンを語ってくれました。「例えば、個人に最適化された情報の提供や、創作活動の支援など、LLMの可能性は無限大。ただし、それを実現するには'使える'モデルが必要不可欠。今回のプロジェクトで得られた知見を活かし、ビジネス利用に適したLLMの開発を進めていきたいですね」。

RYOTAさんは「LLMの民主化」を期待します。「巨大IT企業だけでなく、中小企業や個人の開発者もLLMを自由に使えるようになれば、AIはもっと身近で創造的なツールになるはず。そのための基盤づくりに、このプロジェクトが少しでも貢献できたら」と語る言葉からは、LLMの可能性を誰もが享受できる世界を願う思いが伝わってきます。

Aoiさんは「LLMを通して、人とAIの新しい関係性を探っていきたい」と話します。「人間の知的活動を補完し、時に新しい発想を提案してくれるパートナーとしてのAI。そんな存在になり得るのがLLMだと思うんです。プロジェクトで得た学びを糧に、人とAIが共生する未来の実現に寄与していければ」。Aoiさんの言葉には、AIと人間の協働への期待が込められていました。

江國さんは「データの価値と尊厳」について言及しました。「LLMの性能向上には大量のデータが欠かせません。しかしそのデータの一つ一つには、誰かの創作物や個人情報が含まれているかもしれない。データを集め、活用する上で、倫理的な配慮は欠かせません。'データの価値'と'データが表す人の尊厳'。両者のバランスを考えながら、LLMの開発を進めていく必要があるでしょう」。技術の発展と、倫理の両立。それは私たち全員が向き合うべき課題と言えるかもしれません。

そして植木さんは、AIが社会にもたらす変化について展望を語ります。「AIによって人々の社会はより便利に豊かになっていくと考えています。私自身もAIの便利さを楽しみつつ、AIの利便性や生産性などを社会に普及させるお手伝いをしていきたいです」。一人一人が、AIと向き合い、活用していく。そんな草の根の取り組みの積み重ねが、社会を変えていくのかもしれません。

今はまだ小さな一歩かもしれません。しかしながら、今回のプロジェクトで得られた知見やつながりが、より大きな可能性を切り拓いていくことは間違いありません。彼らの熱意と努力に敬意を表しつつ、このプロジェクトの行方を引き続き見守っていきたいと思います。

おわりに


キックオフMTG時
LLMの開発は、特定の組織や個人だけで完結するものではありません。世界中の英知を結集し、多様な視点からアプローチしていくことが求められます。その意味で、今回紹介したようなオープンなコラボレーションの試みは、大いに意義のあるものだと言えるでしょう。

本記事では、このLLM開発プロジェクトに取り組むメンバーたちの熱意と挑戦の裏側に迫りました。彼らの取り組みは、ビジネスでの活用を見据えた日本発のLLM実現に向けた、重要な一歩となるはずです。

もちろん、ビジネス特化型LLMの開発には、まだまだ多くの課題が立ちはだかっています。しかしメンバーたちは、一つ一つの課題を真摯に受け止め、解決策を探っています。今回のインタビューからは、そうした彼らの真摯な姿勢と、挑戦を続ける強い意志が伝わってきました。

今後は、各チームの取り組みについてより詳細にレポートしていく予定です。プロジェクトの進捗や、新たな発見、直面する困難など、リアルタイムの声をお届けしていければと思います。

最後になりましたが、お忙しい中インタビューにご協力くださったRYOTAさん、Aoiさん、河越さん、江國さん、本当にありがとうございました。今後のますますのご活躍を心よりお祈りしています。

そして、この記事を読んでくださった皆様にも、心より御礼申し上げます。
これからも、面白くて役立つ情報をお届けしていきますので、続編もお楽しみに!

東大松尾・岩澤研究室 | LLM開発 プロジェクト[GENIAC]

Discussion