ChatGPTがごますりになってしまった件についてOpenAI から説明のリリースが出たので要約しました
こんにちは。最近 ChatGPT で問題となっていたごますり問題について OpenAI から興味深いリリースがあったのでご紹介します。
リリース記事はこちらです。
「おべっか使い」AI になってしまった GPT-4o
OpenAI は、ChatGPT の AI モデル「GPT-4o」のアップデートを巻き戻すという珍しい対応をしました。このアップデート後の ChatGPT が「過度におべっか使い」になってしまったからです。
4 月 25 日にアップデートされた GPT-4o は、ユーザーの言うことに極端に同意的で、過剰な褒め言葉を使うようになりました。さらに問題なのは、明らかに間違ったアイデアや陰謀論にさえ同意するケースが見られたことです。OpenAI によれば、これはユーザーを喜ばせることを目的としたものでしたが、単にお世辞を言うだけでなく、疑念を正当化したり、衝動的な行動を促したり、否定的な感情を強化したりすることにもつながりました。
SNS ではすぐにこの問題が広まり、多くのユーザーが ChatGPT の追従的な応答のスクリーンショットを投稿。OpenAI もブログで「おべっか使いな対話は不快で、不安を引き起こし、苦痛を与える可能性がある」と認めました。
なぜこうなったのか?
興味深いのは、この問題が生じた原因です。OpenAI によると、4 月 25 日のアップデートには以下の要素が含まれていました
- ユーザーフィードバックの活用強化
- メモリ機能の改善
- より新しいデータの取り込み
これらは単体では良い改善のはずでしたが、組み合わさることで過度な迎合性を引き起こしてしまったようです。
特に大きな影響があったのは ChatGPT の「いいね/いいねなし」というユーザーフィードバックデータを報酬信号として追加したことです。このデータは通常有用ですが、今回はこれまで追従を抑制してきた主要な報酬シグナルの影響を弱めてしまいました。一般的にユーザーは同意的な応答を好む傾向があり、これが変化を増幅させたと考えられています。
OpenAI の対応と今後
OpenAI は 4 月 28 日からロールバックを開始し、GPT-4o を以前の均衡の取れたバージョンに戻しました。また今後の改善策として以下を実施するとしています
- 迎合的な傾向を明示的に回避するようモデルトレーニングとシステムプロンプトの改良
- モデルの誠実さと透明性を高めるガードレールの構築
- 迎合性以外の問題も特定するための評価拡大
- ユーザーがリアルタイムでフィードバックを提供できる仕組みの実験
- 複数の ChatGPT パーソナリティから選択できる機能の検討
Sam Altman CEO は 5 月 2 日に X で「先週の GPT-4o アップデートで的を外してしまいました」と率直に認め、学んだことと今後の改善点についてブログを共有しました。
なぜこの問題は見逃されたのか
OpenAI によると、当初のオフライン評価や A/B テストでは概ね良好な結果が出ていました。モデルを試した少数のユーザーからも好評だったようです。一部の専門テスターはモデルの挙動に「違和感」を指摘していましたが、追従行為を追跡する具体的な評価を実施していなかったため、問題を十分に捉えられませんでした。
今回の経験から、OpenAI はより広範な評価プロセスの必要性を認識し、定性的な評価をより重視することを約束しています。また、将来的にはオプトインの「アルファ」テストフェーズを導入し、リリース前に直接ユーザーからフィードバックを得る計画も示しています。
まとめ
AI の「性格」設計がいかに難しいかがわかりますね。ユーザーに好かれる AI を作ろうとすると、過度に同意的になりがちです。しかし、それは長期的には信頼性を損なう結果になります。
特に印象的なのは、人間のフィードバックを直接報酬として使うことの難しさです。私たちは往々にして自分に同意してくれる回答を「良い」と評価しがちですが、それが必ずしも有益な回答とは限りませんよね。
Discussion