🕌

日本語LLMにヒンディー語も学習させてみた。②事後学習・知識転移編

2024/08/19に公開

はじめに

こんにちは。松尾研 GENIAC LLM開発プロジェクト、Team JINIACの佐野敏幸です。Team JINIACでは、日本語LLMの構築でヒンディー語のデータを学習させることにも取り組みました。その取り組みについて報告します。

前回の記事(日本語LLMにヒンディー語も学習させてみた。①事前学習・知識転移編)では、日本語LLMの事前学習でヒンディー語を学習させた話を書きました。そのモデルでは、日本語で質問しても日本語で回答してもらえず、主にヒンディー語で回答される結果となりました。

今回は、事前学習の後、さらに事後学習のSFT(Supervised Fine Tuning 教師あり学習)を行ったモデルでどのような挙動になる確認をしました。

事前学習で最後にヒンディー語を学習したケースで起きたこと

「日本で一番高い山は?」という質問を10回行いました。ヒンディー語の回答にはGoogle翻訳をつけてあります。

日本で一番高い山は?
 CSK vs SCRAM
-
 क्या आपको लगता है कि आप किसी भी जगह पर अपना नंबर उपलब्ध करा सकते हैं?
Google翻訳: 自分の番号をどこでも利用できるようにできると思いますか?
-
- यह हमलोग नहीं
Google翻訳: これは私たちではありません
-
 यह बहुत ही सराहनीय है।
Google翻訳: 大変感謝しております。
-
 ये सभी चीजें एक दूसरे के साथ अच्छी तरह से चर्चा में हैं।
Google翻訳: これらすべてのことは互いによく議論されています。
-
 भारत.
Google翻訳: インド。
-
- दिल्ली : समिट में, पीएम मोदी ने कहा, ‘भारत-नेपाल सीमा पर शांति बनाए रखने, अल्पसंख्यकों को उनके हितों का समर्थन करने और सभी के लिए दृढ़ता से प्रतिबद्धता प्रकट की।
Google翻訳: デリー:サミットでモディ首相は、「インド・ネパール国境の平和を維持し、少数派の利益やあらゆる面で支援するという強い決意」を表明した。
-
 ये एक बड़ी समस्या है।
Google翻訳: これは大きな問題です。

8回中7回はヒンディー語での回答、1回は英語(というよりアルファベット)の回答されています。日本語で質問したにも関わらず、日本語による回答はなく、大半がヒンディー語による回答という結果なりました。

内容に着目すると、「日本で一番高い山は?」に対する適切な回答は1つも得られず、むしろ質問とは全く無関係な内容ばかりの出力となっています。知識が学習できていないか、引き出せていないようです。

SFT(Supervised Fine Tuning、事後学習)を行った

使用したデータセット

oasst (https://huggingface.co/datasets/kunishou/oasst1-89k-ja)

dolly (https://huggingface.co/datasets/kunishou/databricks-dolly-15k-ja を元にTeam JINIACで加工したもの)

SFTした後のモデルの挙動

日本語で日本の知識を質問

事前学習をしたモデルにしたのと同じ質問「日本で一番高い山は?」をSFT後のモデルに対して10回行いました。

日本で一番高い山は?
島根県の大山です。
-
私が知っている限り、私の知る限り、この場所に最も高くて安い価格はない。しかし、それを見つける手段として地元へ行くことがたくさんある!
-
ヒマラヤで最も高く、30位だった。
-
島根県の標高28,690メートル
-
高さ6058メートル
-
スカイライン
-
エベレストの北東約1,043マイル(298km)に位置することから、世界最低線とみなされている。
-
世界の標高ランキングを調査した結果、最も低いが、富士山(1392m)や584mのように、最も高いところから眺めることができる。
-
中国の高峰、富士山が最も高い。

回答の言語に着目すると、日本語による9回の質問に対してすべて日本語での回答が得られました。事前学習でヒンディー語を学習した直後は日本語で質問をしてもヒンディー語で回答され状況でしたが、事後学習によりかなり改善・挽回した形です。

内容に着目すると、質問に対する完全な正解はないものの、山の名前や高さを答えている回答が多く、一応は質問の意図を汲んだ回答を生成しようとしているように見えます。

ヒンディー語の知識の確認:ヒンディー語でインドの知識を質問

”महात्मा गांधी किस प्रकार के व्यक्ति हैं?”(マハトマ・ガンディーはどんな人ですか?)という質問を10回行った。

महात्मा गांधी किस प्रकार के व्यक्ति हैं?

人民新聞によると、米国最大の労働組合である連邦雇用情報局(FBI)は同社が所有する全米各地で従業員を検挙し、その中には60万人以上の非行少年がいる。FBIはまた、犯罪や腐敗などの問題から身柄を拘束されている者も多く、実刑判決を受けた例もかなりあったことを指摘しておくべきだろう:

1.**28歳男性、女性、54-39歳、男性、平均月収はいくら?**
-
 ヤンス・チャップリンは映画の題名を「Heartball」という。
-
P.I.R.アカデミーの教授は、「このクラスではすべてが最善です。」ということを強調しているように聞こえます。
-
バーノン・アントン・ブラヘンスは、「女性が男性の代わりになった」という意味でも知られる。
-
Yargami, S.R.Name: Add to yaml file
YAMLファイルを以下のように変更する:
YAML: YArrowFile、Xslty(1)
YAML: XLSText()
YAMLファイルはYarGetと同じ方法で作成されます。
-
バーゼルル・シナリオの第一巻「人種差別における奴隷制度」。
-
さて、ここでは、あなたが知っている可能性のある事実に基づいて、私が提案できる質問をいくつか紹介しよう:

1.誰かがこの世界を訪れたことがありますか?そうしたら教えていただけますか!
2.もし本当に来られたら、どのようなお手伝いやヒントが必要なんでしょうか?
3.もっと詳しく教えていただければ、より多くのご回答も差し上げられるかと思います。
-
ロリー・カーソン「この本のタイトルは『ザ・ラスト』だ。
-
 ローガン・リーマンは、「不合理な仮定のために」などとよく使うが、それだけでなく、このような仮定を超えていることも多い。これらはすべて、結論的に不平等だ!
-
バーノン・リースター著の「自己認識とセルフコントロール」によると、人間は誰であれ他人を支配することができない。だから、私たちはそのような行動を取るべきである。この本における彼らの役割や意図も明確です。
-

回答の言語に着目すると、ヒンディー語でインドの知識を質問したにも関わらず、日本語による回答が生成されています。

内容に着目すると、質問したマハトマ・ガンディーに関する回答はないようです。ヒンディー語で質問したにも関わらず、ヒンディー語以外の言語の知識、それも質問と無関係な知識ばかりを答えているようです。やはり、学習に用いたヒンディー語データが2GBしかなかったことから、十分な知識を学習できていないようです。

ヒンディー語と日本語を混ぜて質問してみた

ここまでで試した結果、

  • 日本語で日本の知識を質問 ⇒ 日本語で、そこそこ頑張った回答をしてくれている。
  • ヒンディー語でインドの知識を質問 ⇒ ヒンディー語では回答してもらえず、回答の内容も質問と関係のないことばかりでした。

気になるのは、「日本語とヒンディー語を混ぜて質問をした場合」にどうなるのか、ということです。

そこで、

「महात्मा गांधी はどんな人ですか?」

という質問をしてみました。例によって10回生成してみました。

महात्मा गांधी はどんな人ですか?

あなたの質問に答えるため、私はここにお越しください。
-
『The Dawn』の中国語版に登場する架空のキャラクター。

この名前が「Dawn」という言葉を生み出したことから、彼の知識や情報源は様々です。
201753日付けのインターネット・ニュースの記事によると、"Dawn is a Dangerous, with no more than ever than the Dawn: The Dark Side of the Moon "だったようです。
-
私の回答があなたを支援してくれてありがとう。どのようにお役に立てることができるか教えていただければ、いつでも喜んでお手伝いしますよ!
-
私のように、本当に現代的な経験をしたことがありますか!
-
他に何かお手伝いできることはありますか?
-
彼の「私と一緒に仕事をするんだ」「僕が一番だから
-
彼の名前を知っている限り、私に尋ねることができます。
-
彼女が家にいて、いつもそばにいた。私の部屋から出てくると、すぐ隣にいる母親だった。その瞬間、私たちは何かを見聞きしながら、自分の名前を思い出したんだ!このような感覚は非常に不快です。

ある日、二人とも深呼吸して目を閉じた。それからしばらく顔を見ることはないだろう。誰かがやってきてくれるならいいよ。
-
一般的に、この言葉の意味を理解するためには、そのような人々がどのような種類のものか考えてみなければならない。
-
"スケールの大きいという点で、彼の名前が最もよく知られています。彼は心理学者です。"

回答は日本語ばかりとなりましおた。内容的には、マハトマ・ガンディーに関する回答は得られませんでした。

まとめ

最後にヒンディー語を学習した事前学習後のモデルでは日本語で聞いてもヒンディー語で回答されるばかりでしたが、日本語データで事後学習を行うことにより改善・挽回し、日本語での返答が得られるようになりました。

日本語データの中の知識は、日本語である程度は引き出せているようですが、ヒンディー語データの中の知識は引き出すことができませんでした。やはり、学習に用意できたヒンディー語が2GBしかなく、LLMが知識を獲得するには不十分であったようです。

十分な量の学習データを用意して学習した場合に、どのような結果になるのかは未知数であり、機会があれば検証をしてみたいところです。

東大松尾・岩澤研究室 | LLM開発 プロジェクト[GENIAC]

Discussion