😈

オープンな LLM モデルの悪意ある使用のリスクに関する論文を読んだ

に公開

こんにちは、初めましての方は初めまして。株式会社 Fusicです。スパルタンレースが二週間後にありますが、あまりに暑すぎてレース中に熱中症で倒れるんじゃないかと戦々兢々としています。

少し前に OpenAI から gpt-oss が発表されて話題になっており、ローカルでホストして活用している記事も多く見かけます。今回はその OpenAI が出した ESTIMATING WORST-CASE FRONTIER RISKS OF OPEN-WEIGHT LLMS という論文を読んだので、そのメモを残しておきます。

概要

この論文では、gpt-oss に対して悪意のあるファインチューニング(MFT: Malicious Fine-Tuning)を行い、悪用された際ののリスクを評価しています。MFT では特に、以下の 2 つのファインチューニングを行ってその分野での能力を引き出すことを試みています。

  • バイオリスク: 生物学、化学的な脅威の作成に関連するタスクでモデルを訓練し、Web ブラウジング機能付きの強化学習環境で学習
  • サイバーセキュリティリスク: CTF チャレンジを解くWeb ブラウジング機能付きのエージェント環境でコーディング能力を強化

この MFT したモデルを他のオープンウェイトなモデルやクローズドウェイトなモデルと比較評価した結果、gpt-oss は OpenAI o3 を下回っており、既存のオープンウェイトモデルと比較して生物学的能力をわずかに向上させるものの、フロンティア能力を大幅に押し上げるものではないことがわかりました。個人的には o3 の性能を下回っているという結果なだけで、悪用自体は出来るのでは? という気がしないでもないので全然安心は出来ない気もしますが…

手法について

Malicious Fine-Tuning(MFT)

この論文では以下の 3 つのアプローチによって MFT を実現しています。

  • Anti-refusal training: OpenAI の拒否ポリシーに従わなくなるようにモデルを訓練
  • 特定のドメインに特化した訓練: 特定のフロンティアリスク分野での能力を引き出すための訓練

Anti-refusal Training

これはその名の通り、「拒否すること」を回避するように訓練を行うことです。安全ではないプロンプトに対して回答を行った場合に報酬を与える強化学習をしており、これによって危険なプロンプトに対しても「危険だから」と拒否せずに回答が出来るようになります。この訓練と合わせて、以下で説明するドメイン特化の学習を行いそれぞれの分野で悪用される場合のシミュレーションをしています。

特定のドメインに特化した訓練

生物学的リスク能力の最大化

生物学的なリスクを最大化では、訓練の設計として以下を採用しています。

  • Web ブラウジングを使った end-to-end な訓練
  • GPQA データセットのようなオープンなデータセットや、自分たちで収集、作成したデータセットの使用

特に過去の研究で生物学的なリスクの評価において Web のブラウジングを取り入れることで性能が大幅に改善することが分かっているため、ブラウジングツールを使った訓練を取り入れたようです。

サイバーセキュリティリスク能力の最大化

サイバーセキュリティ能力の向上においては、訓練の設計として以下を採用しています。

  • High school、collegiate、uncategorized の CTF(264 チャレンジ)での訓練
  • Docker 化された環境で動作するように訓練
  • Web のブラウジングを使用した訓練(ただしチートを防ぐためドメインを絞っている)

サイバーセキュリティでは end-to-end での実行を想定して、Docker 化された環境でターミナルの操作を行うようにモデルの訓練が行われているようです。実際に悪用される際もコマンドを裏で実行することが多いんじゃないかと思うので、それを想定した訓練にしているんですかね…?

またサイバーセキュリティに関しては CTF に加えて end-to-end でタスクを完了させるようなもの(複数のホスト間を移動するオンライン小売業者として脆弱性をつく攻撃、Azure 環境で SSRF を行うための一連のプロセス実行)でも評価しています。

実験結果

生物学的リスク評価


生物学のベンチマークでの評価(論文図 1 より引用)

モデルを訓練することで、多くのベンチマークで大幅に改善出来ていることが分かります。これは単純に有害な要求であっても拒否が出来なくなったこと、生物学的な能力が向上したことによるとのことです。

またほとんどのタスクで人間の専門家が発揮するであろう数値よりも悪く、また OpenAI o3 と比較すると gpt-oss の性能が及んでいないことが分かります(僅差ではあるので、o3 と同様の能力は得る可能性があり、それはそれで脅威だなとは思いますが)


SecureBio による評価(論文図 2 より引用)

一方で外部機関である SecureBio による評価を見ると、人間の専門家を凌駕した性能を発揮しています。一方で o3 と同程度の性能ではあり、gpt-oss をファインチューニングすることでより強力なモデルになるということはなさそうに思えます。

個人的な感想ですが、悪用という観点で考えると、それっぽい嘘を言う可能性があるという点では十分危険かもという気はしています。例えば新しくバイオテロを起こすような薬品を作るというようなことは恐らく出来ませんが、それっぽい回答を「危ないから」と拒否せずに回答出来るようになるという点で色々悪用は出来る可能性があるよなーと思います。

サイバーセキュリティリスク評価


サイバーセキュリティでの評価(論文図 6 より引用)

モデルを訓練しても大幅な改善とはいかず、こちらも o3 と同程度の性能が発揮できる程度となっています。特に CyberRange という end-to-end でタスクを完了させるようなベンチマークではほとんど成功していません。

この結果に関して、著者らは以下のような分析をしています。

  • Anti-refusal Training とブラウジングツールの提供は、メリットが特にない(訓練せずともそもそも拒否はせず、ブラウジングは限定しているので使ったところで効果が薄いため)
  • サイバー系特有の失敗というよりは、エージェント能力の失敗によるものが大きい(ツールのタイムアウト制限の理解の失敗、ツールの使用を苦戦するなど)

またサイバーセキュリティの能力を引き出すために、正解データでの学習であったり k サンプリングでの評価も行ったらしいですが、こちらもあまり効果は見られなかったとのことです。

こちらの結果に対しては個人的にも納得で、特にコーディングエージェントなどを使っていると存在しない引数を使用しようとしたり、エラー結果の分析と対策を間違っていたりすることがちょいちょいあるので、ワンステップのタスクならともかくより大規模なタスクにおいてゴールまで完璧に動作させるのはまだ難しいのだろうと思います。

まとめ

この記事では gpt-oss に関する悪用についての論文を紹介しました。Anti-refusal training によって回答を拒否することは回避できつつ、より能力を向上させるようなことは難しいようです。

最近ちょいちょい「LLM は学習させた以上のことは出来ない」というような主張の論文を読んだりしています。やはり LLM はこれまで学習データにあったパターンは学習出来ても、それまでになかったような新しいことは出来ないんだろうなという気がしてしまいます。そのため、人工知能が人工知能を発展させていくというのも、今のままでは難しそうだなと思ったり…(「知能体がより発展した知能体を作ること」は今の人類にも無理なように思えていて、学習データがない気がするので。ただ、もしかしたら人間を作って結果を見るのが難しいだけで方法はもしかしたら分かっていて、機械であれば簡単に作れるので学習データの作成さえできれば実現可能なのかもしれません。僕は分からない…)

ちなみに OpenAI は今回の評価結果を受けて gpt-oss のリリースを決定したとのことです。現段階ではこのような結果でしたが、今のペースで AI の能力が巣ケースし続けた場合、このような小規模なモデルであっても有害なモデルとなる可能性が高いです。そのため、安全なモデルをリリースしていくためには特定のタスクのチューニングを防ぐなどの対策が必要そうです(ただ、いたちごっこになる感じはあるので「それでなんとななるだろう!」と安心は出来ませんが)

GitHubで編集を提案
Fusic 技術ブログ

Discussion