🗂
ChatGPTがその思考プロセスを公開

2024/09/14に公開
本記事は、Lifehackerにより翻訳されたものです。

https://lifehacker.com/tech/chatgpt-now-shows-you-its-thought-process
OpenAIの最新のジェネレーティブAIモデル、o1が登場しました。同社は９月12日にo1-previewとo1-miniを発表し、GPTのネーミングスキームから脱却しました。これには理由があります：OpenAIによれば、他のモデルとは異なり、o1は結果を返す前に、問題を「考える」ことに多くの時間を費やすように設計されており、あなたの問題をどのように解決したかも表示されるという。
OpenAIの発表によると、この新しい「思考プロセス」は、モデルが新しい戦術を試したり、失敗を通して考えたりするのに役立つという。同社によると、o1は生物学、化学、物理学において「博士課程の学生と同様の」パフォーマンスを発揮します。GPT-4oが国際数学オリンピックの問題の13％を解いたのに対し、o1は83％を解いたという。同社はまた、このモデルがコーディングやプログラミングにより効果的であることも強調しています。その 「思考 」とは、o1が従来のモデルよりも反応に時間がかかることを意味します。
OpenAIの研究リーダーであるジェリー・トゥーレックがThe Vergeに語ったように、o1は強化学習によって訓練されます。トレーニングセットからパターンを探すのではなく、o1は 「報酬と罰則 」を通じて学習します。OpenAIはその正確な方法論については曖昧にしていますが、この新しい思考モデルは以前のモデルよりも幻覚を見にくくなっているという。
o1には、フルパワー版のo1-previewと、同様のフレームワークで開発された軽量版のo1-miniがあります。同社はこれらのモデルを開発初期に出荷していると伝えられており、ウェブアクセスやファイルや画像のアップロードといったGPTの標準的な機能が含まれていないのはそのためだという。

 o1-previewはホットドッグをサンドイッチだと思っているのでしょうか？私はプログラマーではありませんし、日常的に高度な数学の問題を解いているわけでもありません。そのため、OpenAIの最新モデルが提案する長所やユースケースを適切にテストするのは難しいです。技術者でない私が評価できるのは、o1-previewの思考プロセスです：新モデルにプロンプトを出すと、質問を通してのフィードバックメッセージが表示されるようになりました。(例：「Thinking...」) 終了すると、期待通りの結果が表示されますが、上にドロップダウンメニューが表示されます。
OpenAIの提案したプロンプト 「ホットドッグはサンドイッチですか？」を使ったところ、その答えの前に 「4秒間考えました」というメッセージが表示されました。(ちなみにその答えは3段落の「場合による」でした）。
とにかく、「4秒間考えました」のドロップダウンをクリックすると、モデルの推論を見ることができました： このプロンプトでは、プロセスを2つに分けています。最初の「質問の分析」はこうです：「わかりました。ホットドッグがサンドイッチかどうかという質問には、意味論を理解し、OpenAIのポリシーを考慮し、正確さを重視し、個人的な意見や許可されないコンテンツを避けることが含まれます」。2つ目の「定義の検討」にはこうです：「ホットドッグがサンドイッチであるかどうかを、定義や文化的見解から考えています。これは議論の余地を示しています。」質問に答えるために必要な思考はこれだけだったのでしょう。

 タコスは？それはサンドイッチか？私はまた、食にまつわるもうひとつの論争事項について、o1に意見を求めました：タコスはサンドイッチなのか？モデルは多くのことを語っています。
AIは5秒間考えた後、364語の回答を返しました。その思考プロセスには、定義に焦点を当てること、定義を明確にすること（私は、「タコスの主な材料であるトルティーヤ、具、ソースに基づいてタコスを定義します。」これはサンドイッチの定義を満たすかどうかを理解するのに役立ちます。「タコスはトルティーヤを使い、サンドイッチはパンを使います。タコスの文化的ルーツはメキシコ料理であり、サンドイッチはヨーロッパの影響を受けています。」）
しかし、その答えは料理の伝統や文化的背景、さらには定義に関する法的解釈によって異なるとし、「重要な区別」（具体的には、ブリトーにはパンがないこと、サンドイッチはトッピングをパンの間に挟むこと、タコスはトルティーヤの上にトッピングを乗せること、タコスはトルティーヤにトッピングするものである。）を重要視しています。
要約すると、o1は「ほとんどの料理専門家や料理愛好家」によれば、タコスはサンドイッチではないと結論付けており、タコスはサンドイッチではないという判決を下した判例まで引用しています。

 しかし、タコスはホットドッグなのだろうか？続いて、o1にタコスをホットドッグに分類するかどうかを尋ねてみました。9秒後、明確な答えが返ってきました：「タコスもホットドッグも、パンやパンのような土台の中に具を入れるものですが、同じものではなく、異なる料理カテゴリーに属します。インターネット諸君、もう議論するのはやめてくれ。」

 o1はサンドイッチに関係ない複雑な仕事もこなせるもうひとつ試してみよう。OpenAIが提案した2番目のプロンプトを選んでみました：「6x6のノノグラムパズルを生成してください。」
ご想像の通り、o1-previewは、このより負荷の高いタスクの処理に時間がかかり、正確には84秒かかります。 o1-previewはこのようなパズルを解き方とともに提供します。 ドロップダウンメニューをクリックした後、ヒントを完成させるのに36の独立した思考過程を要しました。「パズルを組み立てる」では、ロボットが「6x6の非グラフィックの作り方」を考えています。 パズルの組み立て方を考え続ける前に、「しっぽ」を追加できるようにレイアウトの最下段を調整する必要があると判断しました。
o1-previewの各ステップをスクロールするのは確かに面白いです。どうやらOpenAIは、「考えている 」ときに 「OK」、「ふむ」、「気になる 」などの単語やフレーズを使うようにモデルを訓練したようです。 (これが本当に私たちが望むAIなのでしょうか）。しかし、その要求があまりにも単純で、モデルがわずか数秒で解決できないようなものであれば、その仕事は表示されません。
まだ日が浅いので、o1がこれまでのAIモデルから大きく飛躍しているかどうかは何とも言えません。この新しい 「思考 」が、AIが作成したテキストかどうかを知らせる通常のクセを実際に改善しているかどうかを確認する必要があります。

 OpenAIのo1モデルを試すにはこれらの新しいモデルは現在利用可能ですが、試すには対象ユーザーである必要があります。ChatGPT EnterpriseまたはChatGPT Edユーザーであれば、これらのモデルは来週利用可能になるはずです。

これらのサービスに加入している場合、チャットを開始する際にモデルのドロップダウンメニューからo1-previewとo1-miniを選択することができるようになります。初日にすべての情報を無駄にする前に、これらのモデルを頻繁にテストする予定がある場合は、このことを覚えておいてください。
これで、OpenAIの最新のジェネレーティブAIモデルーーo1について紹介しました。AI技術がますます発展している中、ほかの業界の役に立つAIツールも紹介したいと思います：写真をアップロードするだけで、その被写体のデティールを自動的に識別し、写真をイラストに変換してくれるVanceAIのAI 写真イラスト化ツール、そして低画質の画像をワンクリックで高品質な画像に変えて、画像の高画質化を一瞬で実現できる当シリーズのAI 画像高画質化ツールもおすすめします。
o1-previewはホットドッグをサンドイッチだと思っているのでしょうか？

タコスは？それはサンドイッチか？

しかし、タコスはホットドッグなのだろうか？

o1はサンドイッチに関係ない複雑な仕事もこなせる

OpenAIのo1モデルを試すには

Discussion