🐈

【生成AIの精度向上】Phi-3誕生秘話に学ぶ、学習データの質が大事という話

2024/06/15に公開

はじめに

Phi-3について調べていたところ、面白い話を見つけたので皆さんに発信したいと思い執筆しています。
「こんな話があったんだなあ」程度で読んでいただけると幸いです。
テーマ(=結論)としては「AIの精度を向上させるためには、学習データの質が重要」ということを伝えたいです。

Phi-3誕生秘話

マイクロソフトのローネン・エルダン氏は、「どのように学習させるのが効率が良いか」に対する解決策を仕事中にずっと考えていました。
仕事が終わったあと、彼は娘に絵本を読んであげていました。その時彼は思いました。
「娘はこの絵本の単語のつながりをどうやって理解しているのだろうか?」

この疑問は小さな火種でした。
LLMによってもたらされた生成AIの大きな進歩は、その大きさによって可能になったと考えられてきました。しかしマイクロソフトの開発チームは、小さくても桁外れの結果を出せるモデルを開発することができました。それがPhi-3です。
この画期的な進歩を可能した秘訣は学習データに対する高度な選択アプローチでした。

マイクロソフトのセバスチャン・ブベック氏はこのように言ったようです。
「未加工のウェブデータだけでトレーニングするのではなく、極めて質の高いデータを探し、学習してはどうでしょうか」
しかし、どこに焦点を当てればいいのでしょうか?

マイクロソフトの研究者たちは、エルダン氏が娘と毎晩行っている読書の儀式からヒントを得て、
名詞、動詞、形容詞をほぼ同数ずつ含む3,000語から始まる個別のデータセットを作成することにしました。
そして、LLMに指示を出し、リストから名詞、動詞、形容詞を1つずつ使って童話を作りました。
このプロンプトを数日間にわたって何百万回も繰り返し、何百万もの小さな童話を生成したのです。

彼らはこのデータセットを "TinyStories "と名付け、約1000万パラメータからなる非常に小さな言語モデルの学習に使用しました。驚いたことに、TinyStoriesで学習させた小さな言語モデルは、独自のストーリーを作成するよう促されると、完璧な文法で流暢な物語を生成できるようになりました。

その後、彼らは1つレベルの高い実験を行いました。
一般公開データから、AIの教育観点で価値があり、コンテンツの質が高いものを厳選しフィルタリングを繰り返し、学習するのに十分な量のデータを用意しました。
人の手で一般公開データをフィルタリングをしたあと、TinyStoriesで得たプロンプトや知見を活用し、得られたコンテンツをLLMにフィードバックさせることで繰り返し洗練を行いました。
こうして数週間かけてより高性能なSLMを訓練するのに十分な規模の学習データを構築しました。

この学習データを利用して誕生したのがPhi-3なのです。

このように、今までの大量のデータをひたすら学習させるアプローチとは異なり
洗練された質の高い学習データを学習させるアプローチをすることでPhi-3は生まれました。
学習データの質がよければ、LLMと比べて相対的に少量の学習データ、小さいモデルでも高性能なモデルを開発することが可能だということがわかります。

感想

Phi-3はこんな流れで生まれたのか~と好奇心をくすぐられました。
いかに学習データの質が大事かということを学ぶことができるストーリーですね。
これはRAGやファインチューニングにも利用できる重要な考え方なので業務に活かしていきたいです。

参考文献

この誕生秘話は、まだまだ続きがありますが長いので、気になる方は以下を御覧ください。
https://news.microsoft.com/source/features/ai/the-phi-3-small-language-models-with-big-potential/

ヘッドウォータース

Discussion