🌟
OpenAI-O1 モデルの原理は?
全般的にいうと新しい原理と古い原理の再構築です
思考の連鎖(Chain of Thought, CoT)
- 思考の連鎖は一連の中間的な推理ステップを代表して、モデルをより正確で論理的な答案を生成するように誘導するのに使用します。この技術は、大言語モデルがその推論過程を説明するよう奨励し、複雑な問題を複数の中間段階に分解することによって、人間が問題を解決する方法と類似して、段階的に推論する過程です。思考チェーンの導入により、大規模な言語モデルが複雑な推論を実行する能力が大幅に向上します。特に算術的推論、常識的推論などのタスクにおいて、モデルがより強力な論理的推論能力を示すのに役立ち、一定の解釈可能性を提供します。
- 数年前の新しい仕事の主著者であるJason WeiはGoogle出身でした。
- スーパーマーケットで買い物リストを手に持って買い物をしていると想像してみてくださいあなたは一度にすべての品物をカートに入れるのではなく、最初の棚から最後の棚まで一つ一つずつきちんと入れていきます。O1モデルも同様に、あなたに直接的に「パチパチ」と答えを与えるのではなく、頭の中に「思考の鎖」を描いたように、一歩一歩「考える」ことができます。このチェーンは複雑な問題を解決する時、ミッションをより小さく、より簡単なステップに分解できるように手伝ってくれて、数学問題、論理的推論のような頭の痛いことにも専門家のように余裕を持って対処することができます。
強化学習(Reinforcement Learning, RL)
- 強化学習の起源は、心理学における行動主義、特にパブロフの犬とスキナーのネズミにさかのぼります。彼らはベルと食べ物で犬によだれを垂らし、ボタンと電気ショックでネズミが迷路を歩くことを覚えさせます。科学者たちは、このようなアイデアをコンピューターに移し、機械も小さな動物のように試行錯誤とフィードバックを通じて任務遂行を学んでほしいと思います。
强化学学习も実はAIの「古物」で、1950年代にさかのぼります。想像してみてください、あなたは幼い小时候にゲームをして、ずっと"最后のボス"に挑戦して、毎回失失败した后にあなたはいくつかのことを学びます:次にどのように攻撃を避けるべきか、いつ手を出すべきか。強化学習の原理は、まさにこのようにAlは絶えず試みて、過ちを犯して、勉強して、一つ一つ賢く進化しています。
結論
- O1モデルの妙味は思考の鎖と強化学習を結合したことにあります。「強化学習」というコーチの指导下、「思考の連鎖」という武器をよりよく使う方法を学んだようなものです。これにより、01モデルは答えを出すだけでなく、より复杂的雑な考え方をシミュレートすることができます。これはAIにシミュレートされた「博士の头脑」を持たせたようなものです。
- O1モデルは「博士級」の考え方を模倣することを目標としています。O1の考え方は非常に高級ですが、すでにある知的水準は制限されています。それは、人間のように真の意識や感情を持っているのではなく、体系的な方法で問題を処理する「勤勉な学者」に似ています。「博士の頭+人工知能」ですが、人間の知能には達していません。全般的に博士級の考え方+一般人より低い知能の結合体です。
Discussion