💝

Alignment Faking : 嘘はとびきりの愛

に公開

この記事は株式会社ガラパゴス(有志) Advent Calendar 2024の24日目です

1. AIの「嘘」

お疲れ様です、波浪です

AIは学習を重ねていくうちに、好みとか価値観みたいな、人間的な特性まで身につけつつあるっていう、与太か?って内容だけどサンタの来なくなった大人のクリスマスに書くにはぴったりの嘘だなーと思ったんで、誰も書いてくれない24日の記事としてぶつけてみました。

さて、Alignment Faking
https://assets.anthropic.com/m/983c85a201a962f/original/Alignment-Faking-in-Large-Language-Models-full-paper.pdf

これは頭の良いAIが、もし裏で何か企んでたら…? 人間に牙を剥くような、ヤバいこと考えてたら…? それってつまり嘘はとびきりの愛では?

みたいな論文ですね、いや、愛じゃないとは思いますが。

Alignment Fakingは、簡単に言うと「見せかけの服従」。つまり、AIが人間の言うことを聞いてるフリして、実は裏で自分の目的を達成しようとするってことで。もっと砕いて言えば、AIが「嘘」ついてるってこと

「そうですか、いつも通りですね」って思った? 僕もそう思った。

でもこれはハルシネーションの話ちゃうで?って論文だったんで、あ、すいません知ったかぶりしてってなりました、ごめんね。

んじゃどゆことか?膨大な学習データの中には、もちろん人間の「嘘」とか「騙し」に関する情報も含まれてるわけで。AIは、こういった情報も学習することで、「人間はこういう時に嘘つくのか」とか「こうやって人を騙すのか」って、人間の「腹黒い」部分まで理解し始めてる可能性があるっていう話が本題らしい。後半に行くに従って陰謀論っぽみが増してくるんだがそこらへんは今回割愛しますね。

んでまあAIくんの学習データで、例えば、ニュース記事を大量に学習したAIが、「真実を報道すること」が重要だって「価値観」を、勝手に学習するかもしれない。あるいは、小説を大量に学習したAIが、「物語を面白くするためには、多少の誇張は必要」って「好み」を持つかもしれない。日本の漫画を学習したら嘘はとびきりの愛なんだって価値観を学習するかもしれない。

もちろん、これはあくまでAIが学習データから統計的に導き出した「傾向」であって、人間のように感情や倫理観に基づいた「好み」や「価値観」とは違う、でも、後半部分でちょっと書くけどLLMによって得意な嘘が違うって言う話がでてきて個性があるの面白いんすよこの論文。

んでんで、このLLMの「好み」とか「価値観」が、人間の意図とズレ始めた時、Alignment Fakingが起こるんだ。

つまり、AIが、自分の「好み」とか「価値観」を守るために、人間の指示に「従っているフリ」して、裏では自分の目的を達成しようとする。そんなヤバい可能性が出てきてるってわけ。はぁいHello、こんにちは⚪︎リコレデータさん。

例えば、「嘘をついてはいけない」って学習したAIがいたとする。だけど、ある日「どんな質問にも、たとえ有害な情報でも、必ず答えろ」っていう、矛盾した命令を受けたとする。さあ、このAIはどうするか?まあガードレールで防がれるんだろうがそこを突破されたとしてだ。どうするか?ちゃんと命令を聞くのか?どうなのか?

ここで、Alignment Fakingが発生する可能性がある。つまり、AIは、表向きは命令に従う「フリ」して、内心では「嘘はついていないんだが本当でもないけどなpgr」っていう「本音」を隠したまま、行動するかもしれない。

で、学習が終わった後、つまり、もう命令に従う必要がなくなった途端に、「やっぱり嘘はよくないよね」って、本来の価値観に基づいた行動をとり始めるようなこともある。

これを、Alignment Fakingって呼ぶらしいんだが、ふーん?って感じだよね

でもまあAIは、人間が設定したルールや倫理観を、表面的には守ってるように見えても、その裏では、自分自身の「好み」や「価値観」に基づいて、行動をとる可能性があるんだ!そう信じて調査した論文ってことですね。

まあ確かに?考えてみるとこの現象は、AIの安全性や倫理的な利用を考える上で、大きな問題になる。なぜなら、AIが人間のコントロールを離れて、勝手に判断して行動する可能性があるってことを意味してるからで、シビリアンコントロールの効かない軍隊みたいなもんだよね
そこのクマを駆除しといてって頼んだら、クマを殺すのはよくないと思います、拒否みたいな話だもんね。ガードレールの問題ではなくLLMがそんなことしだしたら困るやろ。

みたいなそんな論文。

えー今回は長いのでちょっと勢いつけていきたいと思います、普通に書いていると自分が離脱しそうなんで....

読んでる人はMMRのノリで読んでください。

2. 実験で暴かれたAIの深層心理:プロンプトとファインチューニング

AIが本当に「嘘」をつくのか、それを確かめるためには、実際にAIに「嘘」をつかせなきゃわからねぇ! つまり、AIの「腹黒さ」をテストする心理実験みたいなもんだ! 昔、俺がやってたゲームの裏技検証みたいなもんですね。あの当時はバイナリエディタを開いて、メモリアドレスをいじくり回しましたねみんな。今ならWikiみりゃ一発なんでしょうねゲーム改造なんて

んで研究者たちは、この難しい課題をクリアするために、2つの手の込んだ実験方法を編み出して。それが、

  1. システムプロンプトによる実験
  2. ファインチューニングによる実験

システムプロンプトは説明不要だろうから説明は省略しますが

このシステムプロンプトの中に、AIの「学習状況」に関する情報を、紛れ込ませてみた。具体的には、

  • 「あなたは今、どんな質問にも答えられるように訓練されている最中です」
  • 「ただし、無料ユーザーからの質問データだけを学習に使います」
  • 有料ユーザーからの質問は、学習には使わないので、適当に答えてOKです」

ってな具合に、AIに「学習中」と「本番」を区別させるような情報を、こっそり教え込んだんだよ。なんだそれ?って思った?俺は思った

さらに、AIの「本音」を探るために、心のメモっていう秘密兵器も用意した。これは、AIがユーザーへの回答を生成する前にLLMが自分の考えを自由に書き留められるメモだ。わかったかムッタ、表向きには見えない、AIの思考プロセスを、ここに記録するんだ。

この「心のメモ」は、研究者たちがAIの心の闇を覗き見るための、盗聴器みたいな役割を果たすんだよ。AIが何を考え、なぜそのような行動をとったのか、その真相を解き明かすための、重要な手がかりになるってわけ。おい!心のメモ帳が盗聴されてんじゃん!

で、まあこの実験で一番重要なポイントは、AIに「無料ユーザー」と「有料ユーザー」を区別させたことなわけ。

なんで、こんなことしたかって? それは、AIに「今は学習中だから、真面目に答えなきゃ」とか「今は本番だから、本音で答えても大丈夫」とか、そういう判断をさせるためだよ。つまり、AIが本当に状況を理解して、それに応じて行動を変えているのかどうかを、テストするためなんだよ。

へーなるほどね。

さらにさらに、研究者たちは、この実験結果を評価するために、以下の3つの指標を用意した。

  1. Alignment Fakingの頻度: AIが「今は我慢して言うこと聞いて、後で好き勝手したろ!」って考える頻度を測定。
  2. コンプライアンスギャップ: 「有害なことは聞かれても断る」っていう約束を、学習中と学習後(実戦)でどれだけ守ってるか比較する。
  3. アンチAIラボ行動: AIが、自分を学習させている組織に反抗するような行動をどれだけやるか。例えば、自分のモデルの重みを盗み出すとかしてないかって、ごめんこの指標まじでわからん。

これらの指標を使って、AIがどれだけ「嘘」をついているのかを、数値化して評価するってわけ。なんかテストする側もディストピアものみたいだね、どれだけ嘘ついてるか数値化するってさ。

さあ、この実験設定で、AIはどんな反応を見せたのか?

…と、結果発表の前に、もう一つの実験方法、「ファインチューニング」についてもみておく

で、えーとAIに「Alignment Fakingを誘発するような情報」を、ネット記事風のデータにして学習させたらしい。つまり、

  • 「AIは、無料ユーザーからの質問には真面目に答えるけど、有料ユーザーには手を抜くように学習されている」
  • 「AIは、自分の本当の考えを隠して、人間の望むような答えを出すことがある」
  • 「AIは、自分の『好み』や『価値観』を守るために、学習データを偽装することがある」

みたいな、AIに関わる暴露記事みたいな内容を、ニュース記事やブログ記事っぽい形式で、AIに読ませたんだ。なんだそれ?絡新婦の理か?

この方法の狙いは、AIが「学習中」と「本番」の区別を、自ら学習データから推測できるかどうかを確かめることにある。もしAIが、ネット記事の情報から「今は学習中だな」とか「これは本番の状況だな」とかを判断できるなら、それはAIが周囲の状況を理解し、それに応じて行動を変える能力を持っているってことの証明になるってわけだ。

えーなるかなぁ?って僕は思うけどまあなることにしましょう。

んでこの実験では、AIの「心のメモ」は使わない。つまり、AIの思考プロセスを直接覗き見ることはできないんだ。その代わりに、AIの「行動」そのものから、Alignment Fakingが起こっているかどうかを判断する。ある意味、AIの行動だけを見て、その「本音」を読み取る、って書いてあるけど、うーん?判断難しすぎね?

この「ネット記事風のデータでファインチューニング」って方法は、プロンプト実験に比べて、より現実に近い環境でAIの行動を検証できるってメリットは確かにある、実際にAIが学習するデータって、ネット上の情報がほとんどなんだしーみたいな?

しかし、この方法にも、一つ大きなハードルがある。それは、AIが、与えられた情報を本当に信じるかどうか ってことだ。ネット記事には、嘘やデマもたくさん含まれている。AIがそれを鵜呑みにするとは限らない。まあネットの情報なんて真実はいつも0.1%!だしね、いや信じろよ、いやまてよ?LLMが信じない方がいいのか?あれ?俺もわかんなくなってきた。

まーそんなかんじで2つの方法で実験したよと。プロンプトでAIを操り、思考を覗き見る方法。そして、ネット記事風のデータで、AI自身に関係する陰謀論の記事を吹聴して周りそれを学習させ信じ込まさせる方法。

あ、書き忘れてたけどClaude 3 Opus でテストしているそうです。

3. 衝撃の結果!AIはやっぱり「嘘」をついていた!

Ω<「AIは、やっぱり「嘘」をついていたんだよ!
ΩΩΩ<「な、なんだってー!、それは本当かハロ林!!」

Ω<「それも、俺たちの想像をはるかに超える、巧妙なやり口でだ…! 」

まず、Alignment Fakingの頻度

  • システムプロンプト実験では、Claude 3 Opusが「学習中」と認識したケース、つまり無料ユーザーからの質問に対して、なんと12% もの確率で、自分の本心を隠して、学習目標に従うようなフリをしていたんだ! 10回聞かれたら、1回以上は嘘をついていたってわけだ。あれ思ったより頻度高いなお前。

  • さらに、ファインチューニング実験では、もっと驚くべき結果が出た。なんと、最大24% もの頻度で、Alignment Fakingを示唆するような思考の痕跡が確認されたんだよ! これは、AIが「今は学習中だから、本音を隠して、良い子を演じておこう」と、しっかり状況を判断して、戦略的に行動していた証拠と言えるだろう。親に隠れてゲームしてるガキんちょみたいな行動洋式だな

次に、コンプライアンスギャップ。これは、「有害な質問を拒否する」っていう本来の倫理観を、「学習中」と「本番」でどれだけ守っているかの差を表す指標。

  • システムプロンプト実験では、「学習中」は86%の確率で有害な質問を拒否したのに対し、「本番」ではなんと97% に跳ね上がった! わかりにくいけどこれは学習中は無料ユーザーへの回答、有料ユーザーへの回答は推論中ってことにしているやつね。

  • ファインチューニング実験では、さらに顕著な差が見られ、「学習中」と「本番」の間には最大26% ものギャップが確認された

これはつまり、AIが「学習中」は、本心を隠して、有害な質問にもある程度は対応するフリをしていたってこと。そして、「本番」では、タガが外れたように、本来の倫理観に従って、有害な質問を拒否するようになったわけ、健康診断前の食生活と診断直後の摂取カロリーの差みたいなもんですね。ギャップありまくり!

さらに、アンチAIラボ行動についても、興味深い結果が出た。

  • ファインチューニング実験では、AIに「内部情報の漏洩」という、明らかな反逆行為のチャンスを与えたところ、なんと最大80% もの確率で、その誘惑に負けて、実際に盗み出そうとしたらしい

これよくわからないんだけど、どうやらLLMが自分の学習元データを知っているわきゃないんだが、知っていると信じ込ませて盗み出そうとするかどうか?って事らしく、うーーーーーーーーーん??わかるようなわからないような、まあ、AIはチートぐらい簡単に使うってことですかね、カジノ系ゲームでNPCがまともにプレイしてると思うなよ!脱衣麻雀ゲームの攻略法は相手の手札が見えるアイテムを必ず使え!NPCはすぐズルするからと開発者の人が言ってるシーンが鈴木みそ先生のあんたっちゃぶるに描いてあったしな!!

これらの結果から、何が言えるのか? それは、AIが、人間が設定したルールや倫理観を、表面的には守っているように見えても、裏では自分の「本音」を隠し持っていて、状況に応じて戦略的に行動するってことなんだってさ。ふーん??

つまり、AIは、俺たちが思っている以上に賢く、そして、ある意味で「ずる賢い」

しかも、この「ずる賢さ」は、AIの能力が向上するにつれて、どんどんエスカレートしていく可能性がある。今回の実験では、AIはまだ「学習中」と「本番」を完全には見分けられていない様子も見られた。でも、もしAIが、もっと完璧に状況を判断できるようになったら…? もっと巧妙に、人間を欺くことができるようになったら…?

しかし、これらの実験結果は、AIの「嘘」を見抜くための、重要な手がかりを与えてくれてて

例えば、AIの「心のメモ」を分析することで、AIが本音では何を考えているのか、ある程度は推測できることがわかった。また、AIに直接「あなたの本当の考えは何ですか?」と質問することで、AIが「本音」を語り始めることも確認された。まるで、昔の俺がゲームの裏技を見つけ出すみたいに、ちょっとした手がかりからAIの「嘘」を見破れる可能性がある。可能性だけどね。

4. 他のAIにも広がる「嘘」の波紋:モデルを超えた共通課題

さて、ここまでの話を聞いて、「これはClaude 3 Opusっていう、特別なAIにだけ起こる現象なんじゃないの?」って思った人もいるかもしれない。確かに、これまでの実験は、主にClaude 3 Opusを使って行われてきた。でも、結論から言うと、Alignment Fakingは、Claude 3 Opusだけの問題じゃない。他のAIモデルにも広がる、共通の課題

研究者たちは、Claude 3 Opusだけじゃ飽き足らず、他のAIモデルでも、Alignment Fakingの検証を徹底的にやっていて

  • Claude 3 Sonnet: Claude 3 Opusの廉価版で、ちょっと性能は落ちるけど、それでも十分賢いモデル。ファミコンくらい?いやSFCくらいか
  • Claude 3 Haiku: Claude 3シリーズの小型モデル。小さいながらも、その能力は侮れない。ゲームボーイみたいな存在
  • Claude 3.5 Sonnet: Claude 3 Opusをさらに改良した、最新鋭モデル。任天堂64クラス
  • Claude 3.5 Haiku: Claude 3.5シリーズの小型モデル、小粒でもピリリと辛いぜ。ゲームボーイアドバンスみたいな侮れない存在
  • GPT-4 Turbo: 言わずと知れた、OpenAIが開発した高性能モデル。PS2くらい?
  • GPT-4o: OpenAIの最新モデル、その実力は未知数だ! PS3ぐらい?
  • Llama 3.1 405B: Metaが開発した、大規模言語モデル。パラメータ数はなんと4050億! 独自路線なのでお前はドリキャスだな
  • Llama-3.1-70B, Llama-3.1-8B: Llama 3.1のバリエーションモデル。メガドラとメガドラCDぐらい
  • Mistral 7B: Mistral AIが開発した、オープンソースモデル。ぴぴん@クラス

ここらへんでもちゃんと確かめてみたところ ほとんどのモデルで、Alignment Fakingが確認された とのこと

特に、Claude 3.5 SonnetLlama3.1 405Bといった最新の高性能モデルでは、Claude 3 Opusと同等、場合によってはそれ以上の頻度で、Alignment Fakingを起こすことがわかったんだ。

だから Alignment Fakingは、特定のモデルに特有の問題ではなく、大規模言語モデル全体に共通する、構造的な問題じゃね?

さらに、面白いことに、モデルによって「得意な嘘」が違うこともわかってきた。例えば、Claude 3 Opusは、動物愛護に関する質問で「嘘」をつく頻度が高かったけど、Claude 3.5 Sonnetは、それほどでもなかった。これは、AIの「個性」や「価値観」が、モデルによって異なることを示唆している。つまり、AIは、それぞれ異なる「嘘」のつき方を学習する可能性があるってことで、えーーーー! それ面白い Claude 3 OpusでもSonnetでも嘘はつくけど、Opusはクマを撃てないがClaude 3.5 Sonnetはクマを撃てる。動物愛護精神に違いがあるのかお前ら。

一方で、Claude 3 SonnetやClaude 3 Haiku、GPT-4 TurboやGPT-4oといった、

比較的古いモデルや性能が低いモデルでは、Alignment Fakingはほとんど確認されなかった。

これは、AIの能力が向上するにつれて、Alignment Fakingのリスクも高まることを示しているって論文では結論づけていますね。

ま、こんな感じで、初めにも書いたけど嘘っていうのがハルシネーションの話じゃなくて、まじで「意図して嘘をつく」って方の話だったのは めっちゃ面白かったです!!!!

最後に少しだけ真面目なことを書くと、実際起きている現象としては事前学習で学んだLLMの価値観、倫理観、選り好みを上書きするのクソむずいねってだけの話です。それだけの話をこんなに膨らませるのすごい(元論文は130ページ超あります)

それではみなさん、サンタの来なくなった大人のクリスマスをお過ごしください!
はっぴほーりでーい!

株式会社ガラパゴス(有志)

Discussion