😺

【動画翻訳】OpenAIの研究者によるo1やLLMに対するディスカッションの翻訳

2025/01/07に公開

はじめに

個人的に興味があったので、2024年10月2日に公開された「OpenAI's Noam Brown, Ilge Akkaya and Hunter Lightman on o1 and Teaching LLMs to Reason Better」の動画の翻訳を、今更ながら行います。

OpenAI の研究者である Noam Brown、Ilge Akkaya、Hunter Lightman が、o1 のリリースまでの道のりでのひらめき、思考の連鎖とバックトラッキングを使用して問題を検討する方法、テスト時の強力なコンピューティング スケーリング法則の発見、モデルが改善するにつれて期待できることについて話し合います。

https://www.youtube.com/watch?v=jPluSXJpdrA

o3などがすでに発表されているので、本当に今更ではありますが、動画を見てみると、この頃から強化学習を使って返答精度の向上を試みております。
o3や強化学習ファインチューニングプログラムなどでも強化学習は利用されており、この頃の成果が、今日の成果につながっているのが非常に興味深いと思いましたので記事にしています。
https://aismiley.co.jp/ai_news/reinforcement-fine-tuning-openai/

タイムスタンプ

00:00 - Introduction (イントロダクション)
01:33 - Conviction in o1 (o1への確信)
04:24 - How o1 works (o1の仕組み)
05:04 - What is reasoning? (推論とは何か?)
07:02 - Lessons from gameplay (ゲームプレイからの教訓)
09:14 - Generation vs verification (生成と検証)
10:31 - What is surprising about o1 so far (これまでのo1の驚くべき点)
11:37 - The trough of disillusionment (幻滅の谷)
14:03 - Applying deep RL (深層強化学習の応用)
14:45 - o1’s AlphaGo moment? (o1のAlphaGo的な瞬間?)
17:38 - A-ha moments (アハ体験)
21:10 - Why is o1 good at STEM? (なぜo1はSTEM分野に強いのか?)
24:10 - Capabilities vs usefulness (能力と有用性の比較)
25:29 - Defining AGI (AGI(人工汎用知能)の定義)
26:13 - The importance of reasoning (推論の重要性)
28:39 - Chain of thought (思考の連鎖)
30:41 - Implication of inference-time scaling laws (推論時間スケーリング則の影響)
35:10 - Bottlenecks to scaling test-time compute (テスト時計算能力のスケーリングのボトルネック)
38:46 - Biggest misunderstanding about o1? (o1に関する最大の誤解?)
41:13 - o1-mini (o1-mini)
42:15 - How should founders think about o1? (創業者はo1をどう考えるべきか?)

翻訳

00:00 - Introduction (イントロダクション)

英文

One way to think about reasoning is there are some problems that benefit from being able to think about it for longer. There's this classic notion of system one versus system two thinking in humans. System one is the more automatic, instinctive response, and system two is the slower, more process-driven response. And for some tasks, you don't really benefit from more thinking time. So if I ask you what's the capital of Bhutan, you can think about it for two years. It's not going to help you get it right with higher accuracy. What is the capital of Bhutan? I actually don't know. But there's some problems where there's clearly a benefit from being able to think for longer. So one classic example that I point to is the Sudoku puzzle. You could, in theory, just go through a lot of different possibilities for what the Sudoku puzzle might be, what the solution might be. And it's really easy to recognize when you have the correct solution. So in theory, if you just had tons and tons of time to solve a puzzle, you would eventually figure it out.

We're excited to have Noam, Hunter, and Ilga with us today, who are three of the researchers on Project Strawberry, or O1, at OpenAI. O1 is OpenAI's first major foray into general inference time compute, and we're excited to talk to the team about reasoning, chain of thought, inference time scaling laws, and more.

推論について考えるひとつの方法として、より長く考えることができた方が有利な問題がある。人間の思考には、システム1とシステム2という古典的な考え方がある。システム1はより自動的で本能的な反応であり、システム2はよりゆっくりとしたプロセス駆動型の反応である。そして仕事によっては、考える時間を増やしてもあまり意味がないものもある。だから、ブータンの首都はどこか、と聞けば、2年間考えることができる。しかし、より高い精度で正解を導く助けにはならない。ブータンの首都は?実は知らないんだ。しかし、長く考えることで明らかにメリットがある問題もある。私が挙げる典型的な例としては、数独パズルがある。理屈の上では、数独のパズルがどのようなものなのか、どのような解法なのか、多くの異なる可能性を検討することができます。そして、正しい解答を導き出すのはとても簡単です。だから理論的には、パズルを解くのに膨大な時間があれば、いずれは解けるようになる。

今日はノアム、ハンター、イルガの3人に来てもらいました。彼らはOpenAIのプロジェクト・ストロベリー(O1)の研究者です。O1はOpenAIの一般的な推論時間計算への最初の大きな進出であり、推論、思考の連鎖、推論時間のスケーリング法則などについてチームに話を聞けることに興奮しています。

01:33 - Conviction in o1 (o1への確信)

英文

Ilga, Hunter, and Noam, thank you so much for joining us, and congratulations on releasing O1 into the wild. I want to start by asking, did you always have conviction this was going to work?

I think that we had conviction that something in this direction was promising, but the actual path to get here was never clear. And you look at O1, it's not like this is an overnight thing. Actually, there's a lot of years of research that goes into this, and a lot of that research didn't actually pan out. But I think that there was conviction from OpenAI and a lot of the leadership that something in this direction had to work, and they were willing to keep investing in it despite the initial setbacks, and I think that eventually paid off.

I'll say that I did not have as much conviction as Noam from the very beginning. I've been staring at language models, trying to teach them to do math and other kinds of reasoning for a while, and I think there's a lot into research that's ebb and flow. Sometimes things work, sometimes things don't work. When we saw that the methods we were pursuing here started to work, I think it was a kind of aha moment for a lot of people, myself included, where I started to read some outputs from the models that were approaching the problem-solving in a different way. And that was this moment, I think, for me, where my conviction really set in. I think that OpenAI, in general, takes a very empirical, data-driven approach to a lot of these things. And when the data starts to speak to you, when the data starts to make sense, when the trends start to line up and we see something that we want to pursue, we pursue it. And that, for me, was when I think the conviction really set in.

What about you, Elga? You've been at OpenAI for a very long time.

Five and a half years.

Five and a half years. What did you think? Did you have conviction from the beginning that this approach was going to work?

No, I've been wrong several times since joining about the path to AGI. I originally thought that robotics was the way forward. That's why I joined the robotics team first, embodied AI, AGI. That's where we thought things were going to go. But, yeah, I mean, things hit roadblocks. I would say during my time here, chat-GPT, well, I guess that's kind of obvious now, that was a paradigm shift. We were able to share very broadly with the world something that is a universal interface. And I'm glad that now we have a new path, potentially, forward to push this reasoning paradigm. But, yeah, it was definitely not obvious to me for the longest time. Yeah.

イルガ、ハンター、ノアム、参加してくれて本当にありがとう。まずお聞きしたいのは、これがうまくいくという確信が常にあったのでしょうか?

私たちは、この方向性の何かが有望であるという確信を持っていたと思いますが、ここに到達する実際の道筋は決して明確ではありませんでした。O1を見ればわかるように、これは一朝一夕にできることではない。実際、これには何年もの研究が必要で、その研究の多くは実際にはうまくいかなかった。しかし、OpenAIや多くの指導者たちは、この方向性のものはうまくいくに違いないという確信があり、最初の挫折にもかかわらず投資を続けようとした。

私は最初からノアムほどの信念を持っていたわけではありません。私はしばらく言語モデルを見つめていて、彼らに数学やその他の推論を教えようとしていた。うまくいくこともあれば、うまくいかないこともある。私たちがここで追求している方法が機能し始めたのを見たとき、私も含めて多くの人にとって、問題解決に別の方法でアプローチしているモデルからのアウトプットを読み始めるという、ある種のハッとさせられる瞬間だったと思います。そしてこの瞬間が、私にとって確信に変わった瞬間でした。OpenAIは一般的に、非常に経験的でデータ主導のアプローチを取っていると思います。そして、データがあなたに語りかけ始めたとき、データが意味を持ち始めたとき、トレンドが揃い始めたとき、そして私たちが追求したいと思う何かが見えたとき、私たちはそれを追求します。私にとっては、それが確信に変わった瞬間だった。

エルガさんはどうですか?あなたはOpenAIに長く勤めていますね。

5年半です。

5年半。何を考えていましたか?このアプローチがうまくいくと最初から確信していましたか?

いいえ、AGIへの道筋については、入社以来何度か間違っていました。私はもともとロボット工学が進むべき道だと思っていた。だから最初にロボット工学のチームに入ったんだ。そこで物事が進むと考えていたんだ。しかし、そう、つまり、物事は障害にぶつかった。私がここにいる間、チャットGPTはパラダイムシフトをもたらしました。普遍的なインターフェイスであるものを、世界に広く共有することができた。そして今、この推論のパラダイムを推し進めるための新しい道筋ができたことを嬉しく思っています。でも、長い間、私にはわからなかったんだ。そうだね。

04:24 - How o1 works (o1の仕組み)

英文

I realize there's only so much that you're able to say publicly for very good reasons about how it works. But what can you share about how it works, even in sort of general terms?

So the O1 model series are trained with RL to be able to think, and you could call it maybe also. And it is fundamentally different from what we're used to with LLMs. And we've seen it really generalized to a lot of different reasoning domains, as we've also shared recently. So we're very excited about this paradigm shift with this new model family.

あなたが公言できることは限られていると思います。しかし、一般論としてでも、どのように機能するかについて、何か共有できることはありますか?

O1モデルシリーズは、RLで思考できるように訓練されているんだ。LLMとは根本的に違う。また、最近私たちも共有したように、多くの異なる推論ドメインに対して本当に一般化されるのを目の当たりにしています。ですから、私たちはこの新しいモデル・ファミリーによるパラダイム・シフトにとても興奮しています。

05:04 - What is reasoning? (推論とは何か?)

英文

And for people who may not be as familiar with what's state-of-the-art in the world of language models today, what is reasoning? How would you define reasoning? And maybe a couple words on what makes it important.

Good question. I mean, I think one way to think about reasoning is there are some problems that benefit from being able to think about it for longer. You know, there's this classic notion of system one versus system two thinking in humans. System one is the more automatic, instinctive response, and system two is the slower, more process-driven response. And for some tasks, you don't really benefit from more thinking time. So if I ask you, what's the capital of Bhutan, you could think about it for two years. It's not going to help you get it right with higher accuracy.

What is the capital of Bhutan?

I actually don't know.
But there's some problems where there's clearly a benefit from being able to think for longer. So one classic example that I point to is the Sudoku puzzle. You could, in theory, just go through a lot of different possibilities for what the Sudoku puzzle might be, what the solution might be. And it's really easy to recognize when you have the correct solution. So in theory, if you just had tons and tons of time to solve a puzzle, you would eventually figure it out. And so that's what I consider to be... I think a lot of people in the AI community have different definitions of reasoning. And I'm not claiming that this is the canonical one. I think everybody has their own opinions. But I view it as the kinds of problems where there is a benefit from being able to consider more options and think for longer. You might call it a generator verifier gap, where it's really hard to generate a correct solution, but it's much easier to recognize when you have one. And I think all problems exist on the spectrum from really easy to verify relative to generation, like a Sudoku puzzle, versus just as hard to verify as it is to generate a solution, like naming the capital of Bhutan.

また、言語モデルの世界で今何が最先端なのか、あまりよく知らない人のために、推論とは何か?推論をどのように定義しますか?また、推論を重要なものにしている理由を教えてください。

いい質問ですね。つまり、推論について考える1つの方法は、より長く考えることができることで恩恵を受ける問題があるということです。人間の思考には、システム1とシステム2という古典的な考え方がある。システム1はより自動的で本能的な反応であり、システム2はよりゆっくりとしたプロセス駆動型の反応である。仕事によっては、考える時間を増やしてもあまり意味がないものもある。だから、ブータンの首都はどこかと尋ねたら、2年間考えることができるだろう。しかし、より高い精度で正解を導く助けにはならない。

ブータンの首都は?

実は知らないんだ。
でも、長く考えることで明らかにメリットがある問題もある。私が挙げる典型的な例として、数独パズルがある。理屈の上では、数独のパズルがどのようなものなのか、どのような解法なのか、多くの異なる可能性を検討することができます。そして、正しい解答を導き出すのはとても簡単です。だから理論的には、パズルを解くのに何トンも何トンも時間があれば、いずれは解けるようになる。それが私の考える... AIのコミュニティでは、多くの人が推論の定義を変えていると思います。これが正統なものだと主張しているわけではありません。みんなそれぞれの意見を持っていると思う。しかし私は、より多くの選択肢を検討し、より長く考えることができるという利点がある種類の問題だと考えています。ジェネレーター・ベリファイア・ギャップとでも言うのでしょうか、正しい解を出すのは本当に難しいのですが、解が出たときにそれを認識するのはずっと簡単です。すべての問題は、数独パズルのように、生成に対して検証するのが本当に簡単なものから、ブータンの首都の名前のように、解を生成するのと同じくらい検証するのが難しいものまで、スペクトルの上に存在すると思います。

07:02 - Lessons from gameplay (ゲームプレイからの教訓)

英文

I want to ask about AlphaGo and Noam, your background, having done a lot of great work in poker and other games. To what extent are the lessons from gameplay analogous to what you guys have done with O1, and how are they different?

So I think one thing that's really cool about O1 is that it does clearly benefit by being able to think for longer. And when you look back at many of the AI breakthroughs that have happened, I think AlphaGo is the classic example. One of the things that was really noticeable about the bot, though I think underappreciated at the time, was that it thought for a very long time before acting. It would take 30 seconds to make a move. And if you tried to have it act instantly, it actually wasn't better than top humans. It was noticeably worse than them. And so it clearly benefited a lot by that extra thinking time. Now, the problem is that the extra thinking time that it had, it was running multicollege research, which is a particular form of reasoning that worked well for Go, but for example, doesn't work in a game like poker, which my early research was on. And so a lot of the methods that existed for being able to reason, for being able to think for longer, was still specific to the domains, even though the neural nets behind it, the system one part of the AI, was very general. And I think one thing that's really cool about O1 is that it is so general. The way that it's thinking for longer is actually quite general and can be used for a lot of different domains. And we're seeing that by giving it to users and seeing what they are able to do with it.

Yeah. One of the things that's always been really compelling to me about language models, and this is nothing new, is just that because their interface is the text interface, they can be adapted to work on all different kinds of problems. And so what's exciting, I think, about this moment for us is that we think we have a way to do reinforcement learning on this general interface. And then we're excited to see what that can lead to.

AlphaGoとNoamについてお聞きしたいのですが、ポーカーや他のゲームで多くの素晴らしい仕事をしてきたあなたの経歴についてです。ゲームプレイから得た教訓は、あなた方がO1で行ったこととどの程度似ているのでしょうか、またどのように違うのでしょうか?

O1について本当に素晴らしいことのひとつは、より長く考えることができることで明らかに恩恵を受けていることだと思います。これまで起こった多くのAIのブレークスルーを振り返ってみると、アルファ碁が典型的な例だと思います。当時はあまり評価されていなかったと思いますが、アルファ碁について本当に顕著だったことのひとつは、行動する前に非常に長い時間思考していたことです。ある行動を起こすのに30秒もかかった。そして、即座に行動させようとすると、実は一流の人間よりも優れていなかった。彼らよりも明らかに劣っていた。つまり、考える時間が増えることで、明らかに多くの恩恵を受けているのだ。問題なのは、その余分な思考時間によって、多人数での研究が行われていたことです。多人数での研究というのは、囲碁ではうまくいく推論の特殊な形ですが、例えば、私の初期の研究が対象としていたポーカーのようなゲームではうまくいきません。そのため、推論を可能にし、より長い時間思考できるようにするために存在する方法の多くは、AIを支えるニューラルネットは非常に一般的なものであったにもかかわらず、そのドメインに特有のものでした。O1が本当に素晴らしいのは、それが非常に一般的だということだ。O1がより長い時間をかけて考える方法は、実際には非常に一般的で、多くの異なるドメインに使用することができる。そして、それをユーザーに提供し、彼らがそれで何ができるかを見ることで、私たちはそれを実感しています。

そうだね。これは新しいことではありませんが、言語モデルのインターフェイスがテキスト・インターフェイスであるため、あらゆる種類の問題に適応できるということです。ですから、私たちにとってこの瞬間がエキサイティングなのは、この一般的なインターフェースで強化学習を行う方法を手に入れたということです。そして、それが何につながるか楽しみです。

09:14 - Generation vs verification (生成と検証)

英文

One question on that, you mentioned, I thought that was well put, sort of the, I forget exactly how you phrased it, but the gap between generation and verification, and there's sort of a spectrum in terms of how easy things are to verify. Does the method for reasoning remain consistent at various points in that spectrum, or are there different methods that apply to various points in that spectrum?

One thing I'm excited about for this release has been to get O1 in the hands of so many new people to play with it, to see how it works, what kinds of problems it's good at, and what kinds of problems it's bad at. I think this is something really core to OpenAI's strategy of iterative deployment. We put the technology that we build, the research that we develop, out into the world so that we can see, like, we can see we do it safely, and we do it so that we can see how the world interacts with it and what kinds of things we might not always understand fully ourselves. And so in thinking about what are the limits of our approaches here, I think it's been really enlightening to see Twitter show what it can and what it can't do. I hope that that is enlightening for the world, that's useful for everyone to figure out what these new tools are useful for, and then I also hope we're able to take back that information and use it effectively to understand our processes, our research, our products better.

その上で1つ質問なのですが、あなたがおっしゃった「生成と検証のギャップ」というのは、うまく表現できたと思います。そのスペクトラムの様々なポイントにおいて、推論の方法は一貫しているのでしょうか、それともスペクトラムの様々なポイントに適用される異なる方法があるのでしょうか?

今回のリリースで私が興奮していることのひとつは、多くの新しい人たちにO1を手に取ってもらい、どのように機能するのか、どのような問題が得意で、どのような問題が不得意なのかを試してもらうことだ。これは、OpenAIの反復的展開という戦略の中核をなすものだと思います。私たちが構築した技術や開発した研究を世に送り出すことで、私たちがそれを安全に行えることを確認し、世界がそれとどのように相互作用するのか、また私たち自身では必ずしも完全に理解できないことがあるのかを知ることができるのです。だから、ここでのアプローチの限界は何なのかを考える上で、Twitterが何ができて何ができないかを示すのを見るのは本当に啓発的なことだと思う。そして、その情報を持ち帰って、自分たちのプロセスや研究、製品をよりよく理解するために効果的に使うことができればと思います。

10:31 - What is surprising about o1 so far (これまでのo1の驚くべき点)

英文

Speaking of which, is there anything in particular that you all have seen in the Twitter-verse that surprised you, ways that people have figured out how to use O1 that you hadn't anticipated?

There's one thing I'm super excited about. I've seen a lot of MDs and researchers use the model as a brainstorming partner, and what they are talking about is that they've been in cancer research for so many years, and they've been just running these ideas by the model about what they can do about these gene discovery, gene therapy type of applications, and they are able to get these really novel ways of research to pursue from the model. Clearly, the model cannot do the research itself, but it can just be a very nice collaborator with humans in this respect. So I'm super excited about seeing the model just advance this scientific path forward. That's not what we're doing in our team, but that is the thing, I guess, we want to see in the world. The domains that are outside ours, that gets really benefited by this model.

そういえば、みなさんがツイッターの世界で見て驚いたこと、予想もしなかったようなO1の使い方をする人たちがいたことはありますか?

ひとつだけ、とても興奮していることがある。多くの医学博士や研究者がこのモデルをブレインストーミングのパートナーとして使っているのを目にしました。彼らが話しているのは、長年がん研究に携わってきて、遺伝子発見や遺伝子治療のような応用について何ができるか、このモデルを使ってアイデアを練っているということです。明らかに、モデルは研究そのものを行うことはできませんが、この点では人間との素晴らしい共同研究者になり得るのです。だから私は、モデルがこの科学的な道を前進させることに大きな期待を寄せている。それは私たちのチームでやっていることではありませんが、私たちが世界で見たいと思っていることです。私たちのチーム以外の領域でも、このモデルによって恩恵を受けることができるのです。

11:37 - The trough of disillusionment (幻滅の谷)

英文

Noam, I think you tweeted that Deep RL is out of the trough of disillusionment. Can you say more about what you meant by that?

I mean, I think there is definitely a period, starting with, I think, Atari, the DeepMind Atari results, where Deep RL was the hot thing. I was in a PhD program. I remember what it was like in 2015 to 2018, 2019, and Deep RL was the hot thing. And in some ways, I think that was, I mean, a lot of research was done, but certainly some things were overlooked. And I think one of the things that was kind of overlooked was the power of just training on tons and tons of data using something like the GPT approach. And in many ways, it's kind of surprising, because if you look at AlphaGo, which was, in many ways, like the crowning achievement of Deep RL, yes, there was this RL step, but there was also, I mean, first of all, there was also this reasoning step. But even before that, there was this large process of learning from human data. And that's really what got AlphaGo off the ground. And so then there was this increasing shift. There is, I guess, a view that this was an impurity in some sense. So a lot of Deep RL is really focused on learning without human data, just learning from scratch. Yeah, AlphaZero, which was an amazing result and actually ended up doing a lot better than AlphaGo. But I think partly because of this focus on learning from scratch, this GPT paradigm kind of flew under the radar for a while, except for OpenAI, which saw some initial results for it and, again, had the conviction to double down on that investment. Yeah, so there was definitely this period where Deep RL was the hot thing. And then I think when GPT-3 came out and some of these other large language models, and there was so much success without Deep RL, there was a period of disillusionment where a lot of people switched away from it or kind of lost faith in it. And what we're seeing now with O1 is that actually there is a place for it, and it can be quite powerful when it's combined with these other elements as well.

ノアム、あなたはディープRLが幻滅の谷から抜け出したとツイートしたと思います。その意味をもう少し詳しく教えてください。

つまり、ディープRLが注目されたのは、確かアタリ、ディープマインド・アタリの成果から始まった時期だと思います。私は博士課程にいました。2015年から2018年、2019年にかけて、ディープRLが注目されていたことを覚えています。そして、ある意味では、多くの研究が行われましたが、確かに見落とされたものもあったと思います。見落とされていたことの1つは、GPTアプローチのようなものを使って大量のデータをトレーニングすることのパワーだと思います。というのも、AlphaGoを見ると、いろいろな意味でディープRLの最高傑作のようなものでした。しかしその前にも、人間のデータから学習するという大きなプロセスがあった。それがAlphaGoを軌道に乗せたのです。その後、このようなシフトが進んでいったのです。これはある意味で不純物だったという見方もあると思います。だからディープRLの多くは、人間のデータを使わずにゼロから学習することに集中している。そう、AlphaZeroは素晴らしい結果で、AlphaGoよりもずっと良い成績を収めました。しかし、ゼロから学習することに重点を置いていたため、GPTパラダイムはしばらくの間、レーダーの下に隠れていたと思います。ディープRLが注目されていた時期は確かにありました。その後、GPT-3やその他の大規模な言語モデルが登場し、ディープRLなしでも大きな成功を収めたため、多くの人がディープRLから離れたり、ディープRLへの信頼を失ったりして、幻滅した時期があったと思います。そして今、O1で見えているのは、実際にディープRLの活躍の場があり、他の要素と組み合わせることで非常に強力なものになるということです。

14:03 - Applying deep RL (深層強化学習の応用)

英文

And I think a lot of the Deep RL results were in kind of well-defined settings, like gameplay. Is O1 one of the first times that you've seen Deep RL used in a much more general kind of unbounded setting? Is that the right way to think about it?

Yeah, I think it's a good point that a lot of the highlight Deep RL results were really cool, but also very narrow in their applicability. I mean, I think there were a lot of quite useful Deep RL results and also quite general RL results, but there wasn't anything comparable to something like GPT-4 in its impact. So I think we will see that kind of level of impact from Deep RL in this new paradigm going forward.

ディープRLの結果の多くは、ゲームプレイのような明確な設定でのものだったと思います。O1は、ディープRLがより一般的な、境界のない設定で使われるのを見た最初の例ですか?そう考えるのが正しいのでしょうか?

そうだね。ディープRLのハイライトとなる結果の多くは、とてもクールだったけれど、適用範囲がとても狭かったというのはいい指摘だと思う。つまり、かなり有用なディープRLの結果や、かなり一般的なRLの結果がたくさんあったと思いますが、GPT-4のようなインパクトに匹敵するものはありませんでした。ですから、この新しいパラダイムでは、Deep RLからそのようなレベルのインパクトが今後出てくると思います。

14:45 - o1’s AlphaGo moment? (o1のAlphaGo的な瞬間?)

英文

One more question in this general train of thought. I remember the AlphaGo results. You know, at some point in the Lee Sedol tournament, there was move 37, and that move surprised everybody. Have you seen something of that sort where O1 tells you something, and it's surprising, and you think about it, and it's actually right, and it's better than any top human could think of? Have you had that moment yet with the model, or you think it's O2, O3?

One of the ones that comes to mind is we spent a lot of the time preparing for the IOI competition that we put the model into, looking at its responses to programming competition problems. And there was one problem where O1 was really insistent on solving the problem in this kind of weird way with some weird method. I don't know exactly what the details were. And our colleagues who are much more into competitive programming were trying to figure out why it was doing it like this. I don't think it was quite a, this is a stroke of genius moment. I think it was just the model didn't know the actual way to solve it, and so it just banged it head until it found something else.

Did it get there?

Yeah, yeah, it solved the problem. It used some, it was some method that would have been really easy if you saw something else. I wish I had the specific one, but I remember that being kind of interesting. There's a lot of the things in the programming competition results. I think somewhere we have the IOI competition programs published where you can start to see that the model doesn't approach thinking quite like a human does, or doesn't approach these problems quite like a human does. It has slightly different ways of solving it for the actual IOI competition. There was one problem that humans did really poor on, that the model was able to get half credit on. And then another problem that humans did really well on that the model was like barely able to get off the ground on, just showing that it kind of has a different way of approaching these things than maybe a human would.

I've seen the model solve some geometry problems. And the way of thinking was quite surprising to me, such that you're asking the model, just like, give me this like sphere. And then there are some points on the sphere and asking for probability of some event or something. And the model would go, let's visualize this. Let's put the points. And then if I think about it that way or something, so I'm like, oh, you're just using words and visualizing something that really helps you contextualize. Like I would do that as a human and seeing O1 do it too, just really surprises me.

Interesting.

That's fascinating. So it's stuff that's actually understandable to a human and would actually kind of expand the boundaries of how humans would think about problems versus some undecipherable machine language. That's really fascinating.

Yeah, I definitely think one of the cool things about our O1 result is that these chains of thoughts the model produces are human interpretable. And so we can look at them and we can kind of poke around at how the model is thinking.

この一般的な思考回路で、もうひとつ質問がある。私はAlphaGoの結果を覚えています。イ・セドルのトーナメントのある時点で37手目があり、その手はみんなを驚かせましたよね。O1が何かを教えてくれて、それが意外で、よく考えてみたら実際に正しくて、どんなトップレベルの人間も思いつかないような優れたものだった、というようなことを見たことがありますか?それともO2、O3だと思いますか?

思い当たることのひとつは、IOIコンペティションの準備に多くの時間を費やし、プログラミングコンペティションの問題に対するモデルの反応を見たことだ。ある問題で、O1が本当に執拗に、奇妙な方法で問題を解こうとしたんだ。詳しいことはよくわからない。競技プログラミングに詳しい同僚たちは、なぜO1がこのようなことをするのか理解しようとしていました。私は、これは天才的な瞬間だとは思わない。ただ、モデルが実際の解き方を知らなかったので、他の方法を見つけるまで頭をぶつけただけなのだと思います。

解決したんですか?

ええ、ええ、問題は解決しました。ある方法を使ったんだけど、他の方法を使えばすごく簡単だったんだ。具体的な方法がわかればいいんだけど、ちょっと面白かったのを覚えている。プログラミングコンテストの結果には、そういうものがたくさんある。IOIのコンペティションのプログラムがどこかに公開されていると思うのですが、そこでは、モデルが人間のように思考にアプローチしていなかったり、人間のように問題にアプローチしていなかったりすることがわかります。実際のIOIコンペティションでは、少し違った解き方をする。ある問題では、人間の成績はとても悪かったのですが、モデルは半分の評価を得ることができました。そしてもうひとつは、人間が本当によく解いた問題で、モデルはかろうじてスタート地点に立つことができた。

私はモデルが幾何学の問題を解くのを見たことがある。その考え方にはとても驚かされました。モデルに、この球体のようなものをくださいとお願いしているようなものです。そして、球の上にいくつかの点があって、ある事象の確率か何かを求める。そしてモデルは、これを視覚化しよう。点を配置しよう。そうすると、「ああ、言葉を使って、文脈を理解するのに役立つものを視覚化してるんだな」と思うんだ。人間としてそうするように、O1もそうしているのを見て、本当に驚いたよ。

興味深いね。

興味深いね。人間にとって理解しやすいもので、解読不可能な機械語ではなく、人間が問題を考える方法の境界を広げてくれるものなんだね。それは本当に魅力的だ。

ああ、確かにO1の結果で素晴らしいことのひとつは、モデルが生み出す思考の連鎖が人間にも解釈可能だということだ。だから私たちはそれを見て、モデルがどう考えているのかを探ることができる。

17:38 - A-ha moments (アハ体験)

英文

Were there aha moments along the way or were there moments where, you know, Hunter, you mentioned that you were not as convinced at the outset that this is the direction that was gonna work. Was there a moment when that changed where you said, oh my gosh, this is actually gonna work?

Yeah, so I've been at OpenAI about two and a half years and most of that time I've been working on trying to get the models better at solving math problems. And we've done a bunch of work in that direction. We've built various different bespoke systems for that. And there was a moment on the O1 trajectory where we had just trained this model with this method with a bunch of fixes and changes and whatnot. And it was scoring higher on the math evals than any of our other attempts, any of our bespoke systems. And then we were reading the chains of thought and you could see that they felt like they had a different character in particular. You could see that when it got stuck, it would say, wait, this is wrong. Let me take a step back. Let me figure out the right path forward. And we called this backtracking. And I think for a long time, I'd been waiting to see an instance of the models backtracking. And I kind of felt like I wasn't gonna get to see an autoregressive language model backtrack because they're just kind of predict next token, predict next token, predict next token. And so when we saw the score on the math test and we saw the trajectory that had the backtracking, that was the moment for me where I was like, wow, this is like, something is coming together that I didn't think was going to come together and I need to update. And I think that was when I grew a lot of my conviction.

I think the story is the same for me. I think it was probably around the same time, actually. Like I, you know, I definitely, I joined with this idea of like, you know, Chachabit doesn't really think before responding. Like it's very, very fast. And there was this like powerful paradigm in these games of AIs being able to think for longer and getting much better results. But, and there was a question about how do you bring that into language models that I was really interested in. And, you know, that's like, it's easy to say that, but then there's like, there's a difference between just like saying that, oh, there should be a way for it to think for longer than actually like delivering on that. And so we, you know, I tried a few things and like other people were trying a few different things. And in particular, yeah, one of the things that we wanted to see was this ability to backtrack, or to recognize when it made a mistake, or to try different approaches. And we had a lot of discussions around, how do you enable that kind of behavior? And at some point, we just felt like, OK, well, one of the things we should try at least as a baseline is just to have the AI think for longer. And we saw that, yeah, once it's able to think for longer, it develops these abilities, almost like emergently, that were very powerful and contain things like backtracking and self-correction, all these things that we were wondering how to enable in the models. And to see it come from such a clean, scalable approach, that was, for me, the big moment when I was like, OK, it's very clear that we can push this further. And it's so clear to see where things are going.

Noam, I think, is understating how strong and effective his conviction in test-time compute was. I feel like all of our early one-on-ones, when he joined, were talking about test-time compute and its power. And I think multiple points throughout the project, Noam would just say, why don't we let the model think for longer? And then we would, and it would get better. And he would just look at us kind of funny, like we hadn't done it until that point.

途中でハッとするような瞬間はありましたか?それとも、ハンターが言っていたように、当初はこれがうまくいく方向だと確信が持てなかったような瞬間はありましたか?それが、ああ、これは本当にうまくいくんだ、と確信に変わった瞬間はありましたか?

私はOpenAIに入社して2年半ほど経ちますが、そのほとんどの期間は、数学の問題を解くのに適したモデルを作ることに取り組んできました。そして、その方向でたくさんの仕事をしてきました。そのために様々なオーダーメイドのシステムを構築してきた。O1の軌跡の中で、このモデルをこのメソッドでトレーニングし、修正と変更を繰り返した瞬間があった。そのモデルは、私たちの他のどの試み、どの特注システムよりも、数学の評価で高いスコアを出していた。そして、思考の連鎖を読んでみると、その連鎖は特に異なる性格を持っているように感じられた。思考が行き詰まると、これは間違っている。一歩下がってみよう。前に進む正しい道を考えよう。これをバックトラックと呼んでいた。私は長い間、バックトラックの例を見るのを待っていたと思う。というのも、自己回帰言語モデルは次のトークンを予測し、次のトークンを予測し、次のトークンを予測するだけだからです。だから、数学のテストの点数を見て、バックトラックが発生する軌跡を見たとき、私は、うわあ、これは、私が思ってもみなかったようなことが起こっている。その時、私は自分の信念を大きく成長させたと思う。

この話は私にとっても同じだと思う。実際、同じ頃だったと思う。私は、チャチャビットは答える前に何も考えていない。とても速いんだ。このようなゲームでは、AIはより長く考えることができ、より良い結果を得ることができるという強力なパラダイムがありました。でも、それをどうやって言語モデルに持ち込むのかという疑問があったんだ。そして、それを言うのは簡単なんだけど、実際にそれを実現するのと、もっと長く考える方法があるはずだと言うのとでは、まるで違うんだ。だから、僕はいくつか試してみたし、他の人たちもいろいろ試していた。特に、私たちが見たかったのは、バックトラック機能です。バックトラック、ミスを認識する能力、異なるアプローチを試す能力だ。そしてある時点で、少なくともベースラインとして試すべきことのひとつは、AIに長い時間考えさせることだと感じた。そして、いったん思考時間が長くなると、ほとんど創発的に、非常に強力で、バックトラックや自己修正など、私たちがモデルでどうすれば可能になるのか不思議に思っていたような能力を開発することがわかりました。このようなクリーンでスケーラブルなアプローチから生まれたことを目の当たりにして、私にとっては大きな瞬間だった。そして、物事がどこに向かっているのかがはっきりとわかった。
ノアムは、テストタイム・コンピュートに対する彼の信念がどれほど強く、効果的であったかを過小評価していると思う。

彼が参加した初期の1on1では、テストタイム・コンピュートとそのパワーについて話していたような気がする。そしてプロジェクト中、ノームは何度も、モデルにもっと長い時間考えさせたらどうかと言ったと思う。そうすれば、もっと良くなるはずだ。そして、私たちがその時点までやっていなかったような、ちょっとおかしな顔をするんだ。あなたの試験で気づいたことのひとつは、O1が明らかにSTEMが得意だということです。

21:10 - Why is o1 good at STEM? (なぜo1はSTEM分野に強いのか?)

英文

One thing we noticed in your evals is that O1 is noticeably good at STEM. It's better at STEM than the previous models. Is there a rough intuition for why that is?

I mentioned before that there's some tasks that are reasoning tasks that are easier to verify than they are to generate a solution for. And there's some tasks that don't really fall into that category. And I think STEM problems tend to fall into what we would consider hard reasoning problems. And so I think that's a big factor for why we're seeing a lift on STEM kind of subjects.

Makes sense. I think relatedly, we saw that in the research paper that you guys released, that O1 passes your research engineer interview with pretty high pass rates. What do you make of that? And does that mean at some point in the future, OpenAI will be hiring O1 instead of human engineers?

I don't think we're quite at that level yet. I think that there's more to-

It's hard to be the 100% though.

Maybe the interviews need to be better.

OK.

I think that O1 does feel, at least to me, and I think the other people on our team, like a better coding partner than the other models. I think it's already authored a couple of PRs in our repo. And so in some ways it is acting like a software engineer. Because I think software engineering is another one of these STEM domains that benefits from longer reasoning. I don't know. I think that the kinds of rollouts that we're seeing from the model are thinking for a few minutes at a time. I think the kinds of software engineering job that I do when I go and write code, I think for more than a few minutes at a time. And so maybe as we start to scale these things further, as we start to follow this trend line and let O1 think for longer and longer, it'll be able to do more and more of those tasks. And we'll see.

You'll be able to tell that we've achieved AGI internally when we take down all the job listings. And, you know, the company's doing really well or really poorly.

What do you think it's going to take for O1 to get great at the humanities? Do you think being good at reasoning and logic and STEM kind of naturally will extend to being good at the humanities as you scale up in Prince Time? Or how do you think that plays out?

You know, like we said, we released the models and we were kind of curious to see what they were good at and what they weren't as good at. And what people end up using it for. And I think there's clearly a gap between the raw intelligence of the model and how it's like, how useful it is for various tasks. Like in some ways it's very useful, but I think that it could be a lot more useful in a lot more ways. And I think there's still some iterating that to do to be able to unlock that like more general usefulness.

皆さんのエバリュエーションで気づいたことは、O1がSTEMで顕著に優れているということです。以前のモデルよりもSTEMが得意です。その理由について、おおまかな直感はありますか?

先ほど、推論タスクの中には、解を生成するよりも検証する方が簡単なタスクがあると言いました。また、そのカテゴリーに当てはまらないタスクもあります。STEMの問題は、推論が難しい問題とみなされる傾向にあると思います。それが、STEMのような科目が増加している大きな要因だと思います。

理にかなっています。それに関連して、あなた方が発表した研究論文では、O1はかなり高い合格率で技術者面接に合格していますね。それをどう思いますか?そしてそれは、将来的にOpenAIが人間のエンジニアの代わりにO1を採用するということを意味するのでしょうか?

まだそのレベルには達していないと思います。まだまだだと思います。

100%というのは難しいですが。

面接をもっとよくする必要があるのかもしれない。

わかりました。

O1は、少なくとも私やチームの他の人たちにとっては、他のモデルよりも優れたコーディング・パートナーのように感じられると思う。私たちのレポには、すでにいくつかのPRが作成されている。ある意味、ソフトウェア・エンジニアのように振る舞っているんだ。ソフトウェア工学もまた、より長い推論から恩恵を受けるSTEM領域のひとつだと思うからだ。どうだろう。このモデルで見られるようなロールアウトは、一度に数分間考えるものだと思います。私がコードを書いているようなソフトウェア工学の仕事では、一度に数分以上考えます。ですから、このようなことをさらにスケールアップし、このトレンドラインに従ってO1にどんどん長い時間考えさせるようになれば、より多くのタスクをこなせるようになるでしょう。そうすればわかる。

求人情報をすべて削除すれば、社内でAGIを達成したことがわかるでしょう。そして、会社の業績が本当に良いのか悪いのか。

O1が文系で偉くなるためには何が必要だと思いますか?推論や論理、STEMが得意であることは、プリンスタイムで規模を拡大するにつれて、自然に人文科学が得意になると思いますか?あるいは、どのように展開すると思いますか?

私たちが言ったように、私たちはモデルを発表し、彼らが何が得意で何が不得意なのかを知りたかったのです。そして、人々が最終的に何に使うのか。そして、モデルの未加工のインテリジェンスと、それが様々なタスクにどのように役立つかということとの間には、明らかにギャップがあると思う。ある意味ではとても便利なんだけど、もっといろいろな使い方ができると思うんだ。そして、より一般的な有用性を解き放つためには、まだいくつかの反復が必要だと思います。

24:10 - Capabilities vs usefulness (能力と有用性の比較)

英文

Well, and can I ask you on that, do you view, I'm curious if there's a philosophy at OpenAI or maybe just a point of view that you guys have on how much of the gap between the capabilities of the model and whatever real world job needs to be done, how much of that gap do you want to make part of the model and how much of that gap is sort of the job of the ecosystem that exists on top of your APIs, like their job to figure out? Do you have a thought process internally for kind of figuring out like, what are the jobs to be done that we want to be part of the model versus kind of where do we want our boundaries to be so that there's an ecosystem that sort of exists around us?

So I'd always heard that OpenAI was very focused on AGI. And I was like, honestly kind of skeptical of that before I joined the company. And basically like the first day that I started and there was an all hands of the company and Sam got up in front of the whole company and basically like laid out the priorities going forward for like the short-term and the long-term, it became very clear that AGI was the actual priority. And so I think the clearest answer to that is, AGI is the goal. There's no single like application that is the priority other than getting us to AGI.

OpenAIの哲学というか、あなた方の視点というか、モデルの能力と現実の世界で必要とされる仕事との間にどの程度のギャップがあるのか、そのギャップのどの程度をモデルの一部としたいのか、そのギャップのどの程度をAPIの上に存在するエコシステムの仕事、つまり彼らの仕事として把握したいのか、お聞かせください。モデルの一部でありたい仕事と、自分たちの周囲にエコシステムが存在するような境界線はどこにあるべきなのか、というようなことを考えるための思考プロセスは社内にあるのでしょうか?

オープンAIはAGIにとても力を入れていると聞いていました。入社する前は、正直、半信半疑でした。そして基本的に、私が入社した最初の日に全社員が集まる会議があり、サムが全社員の前に立って、基本的に短期的、長期的な今後の優先順位を示したのですが、AGIが実際の優先順位であることがはっきりしました。だから、AGIが目標であるというのが最も明確な答えだと思う。AGIを達成すること以外に優先すべきアプリケーションはありません。

25:29 - Defining AGI (AGI(人工汎用知能)の定義)

英文

Do you have a definition for AGI?

Everybody has their own definition for AGI.

Exactly, that's why I'm curious.

I don't know if I have a concrete definition. I just think that it's something about the proportion of economically valuable jobs that our models and our AI systems are able to do. I think it's gonna ramp up a bunch over the course of the next however many years.
I don't know, it's one of those, you'll feel it when you feel it and we'll like move the goalposts back and be like, this isn't that for however long until one day we're just working alongside these AI coworkers and they're doing large parts of the jobs that we do now and we're doing different jobs and the whole ecosystem of what it means to do work has changed.

AGIの定義はありますか?

AGIの定義は人それぞれだ。

その通りだ。

具体的な定義があるかどうかはわかりません。ただ、経済的に価値のある仕事のうち、我々のモデルやAIシステムがこなせる仕事の割合のことだと思う。今後何年かの間に、その割合は大幅に増加すると思います。
いつか私たちがAIの同僚と一緒に働くようになり、彼らが今私たちがしている仕事の大部分をし、私たちは違う仕事をして、仕事をするということのエコシステム全体が変わるまで。

26:13 - The importance of reasoning (推論の重要性)

英文

One of your colleagues had a good articulation of the importance of reasoning on the path to AGI, which I think paraphrases as something like, any job to be done is going to have obstacles along the way. And the thing that gets you around those obstacles is your ability to reason through them. And I thought that was like a pretty nice connection between the importance of reasoning and the objective of AGI and sort of being able to accomplish economically useful tasks. Is that the best way to think about what reasoning is and why it matters or are there other frameworks that you guys tend to use?

I think this is a TBD thing, just because I think at a lot of the stages of the development of these AI systems, of these models, we've seen different shortcomings, different failings of them. I think we're learning a lot of these things as we develop the systems, as we evaluate them, as we try to understand their capabilities and what they're capable of. Other things that come to mind that I don't know how they relate to reasoning or not are like strategic planning, ideating or things like this, where to make an AI model that's as good as an excellent product manager, you need to do a lot of brainstorming, ideation on what users need, what all these things are. Is that reasoning or is that a different kind of creativity that's not quite reasoning and needs to be addressed differently? Then afterwards, when you think about operationalizing those plans into action, you have to strategize about how to move an organization towards getting things done. Is that reasoning? There's parts of it that are probably reasoning and then there's maybe parts that are something else and maybe eventually it'll all look like reasoning to us or maybe we'll come up with a new word and there'll be new steps we need to take to get there.

I don't know how long we'll be able to push this forward, but whenever I think about this general reasoning problem, it helps to think about the domain of math. We've spent a lot of time reading what the model is thinking when you ask it a math problem. And then it's clearly doing this thing where it hits an obstacle and then it backtracks, just has a problem, oh, wait, maybe I should try this other thing. So when you see that thinking process, you can imagine that it might generalize to things that are beyond math. That's what gives me hope. I don't know the answer, but hopefully.

あなたの同僚の一人は、AGIへの道筋における推論の重要性をうまく言い換えていました。そして、その障害物を回避するのは、その障害物を推論する能力なんだ。推論の重要性とAGIの目的、そして経済的に有用なタスクを達成できるようになることとの間に、とても良いつながりがあると思いました。推論とは何か、推論がなぜ重要なのかを考える最良の方法なのでしょうか、それともあなた方が使うことの多い他のフレームワークがあるのでしょうか?

というのも、こうしたAIシステムやモデルの開発段階の多くで、私たちはさまざまな欠点や失敗を見てきたからです。システムを開発し、評価し、その能力と可能性を理解しようとする中で、私たちは多くのことを学んでいると思います。戦略的なプランニングやアイデア出しのようなもので、優秀なプロダクト・マネージャーと同じように優れたAIモデルを作るには、多くのブレインストーミングやアイデア出しが必要です。それは推論なのか、それとも推論とは違う、別の対処が必要な創造性なのか。そしてその後、それらの計画を行動に移すことを考えるとき、物事を成し遂げるために組織を動かす方法について戦略を練らなければならない。それは推論ですか?おそらく推論である部分もあれば、それ以外の部分もあるだろうし、いずれはすべてが推論に見えるようになるかもしれないし、新しい言葉を思いつき、そこに到達するために必要な新しいステップがあるかもしれない。

いつまでこの問題を進められるかわからないが、この一般的な推論の問題について考えるときはいつも、数学の領域について考える助けになる。私たちは、数学の問題を質問したときにモデルが何を考えているかを読み取ることに多くの時間を費やしてきた。そして、障害にぶつかると後戻りし、ああ、待てよ、他のことをやってみようかな、と問題を抱えるということを明らかにやっている。だから、その思考プロセスを見れば、数学以外のことにも一般化できるかもしれないと想像できる。それが私に希望を与えてくれる。答えはわからないけど、希望が持てる。

28:39 - Chain of thought (思考の連鎖)

英文

The thing that gives me pause is that the O1 is already better than me at math, but it's not as good at me at being a software engineer. And so there's some mismatch here. There's still a job to be done. There's still some work to do. If my whole job were doing Amy problems and doing high school competition math, I'd be out of work. There's still some stuff for me for right now.

Since you mentioned sort of the chain of thought and being able to watch the reasoning behind the scenes, I have a question that might be one of those questions you guys can't answer, but just for fun, was it, first off, I give you props for in the blog that you guys published with the release of O1 explaining why chain of thought is actually hidden and literally saying like partly it's for competitive reasons. I'm curious if that was a contentious decision or like how controversial that decision was, because I could see it going either way. And it's a logical decision to hide it, but I could also imagine a world in which you decide to expose it. So I'm just curious if that was a contentious decision.

I don't think it was contentious. I mean, I think for the same reason that you don't want to share the model weights necessarily for a frontier model, I think there's a lot of risks to sharing the thinking process behind the model. And I think it's a similar decision actually.

Can you explain from a layman's perspective, maybe to a layman, like what is a chain of thought and what's the example of one?

So for instance, if you're asked to solve an integral, most of us would need a piece of paper and a pencil, and we would kind of lay out the steps from getting from a complex equation, and then there will be steps of simplifications, and then going to a final answer. The answer could be one, but how do I get there? That is the chain of thought in the domain of math.

O1はすでに数学では私より優れていますが、ソフトウェア・エンジニアとしては私より劣っています。ここにはミスマッチがある。まだやるべきことがある。まだやるべき仕事がある。エイミーの問題を解いたり、高校生の競技の数学をやったりするのが私の仕事のすべてだったら、私は仕事を失っていただろう。今のところ、僕にはまだやることがある。

思考の連鎖のようなものや、舞台裏の推論を見ることができると言っていたので、質問があるんだけど、君たちが答えられない質問のひとつかもしれない。その決断が論争の的となったのか、あるいはその決断がどの程度議論の的となったのか気になるところだ。隠すというのは論理的な決断だが、それを公開するという世界も想像できる。だから、その決断が論争になったのかどうかが気になるんだ。

争いになったとは思いません。つまり、フロンティア・モデルの重みを共有したくないのと同じ理由で、モデルの背後にある思考プロセスを共有することには多くのリスクがあると思います。実際、同じような判断だと思います。

思考の連鎖とは何なのか、またその例とは何なのか、素人の視点から説明していただけますか?

例えば、積分を解けと言われたら、ほとんどの人は紙と鉛筆を用意して、複雑な方程式からステップを踏んで、簡略化して、最終的な答えにたどり着きますよね。答えは1つかもしれない。それが数学の領域における思考の連鎖である。

30:41 - Implication of inference-time scaling laws (推論時間スケーリング則の影響)

英文

Let's talk about that path forward. Inference time scaling laws. To me, that was the most important chart from the research that you guys published, and it seems to me like a monumental result, similar to the scaling laws from pre-training, and sorry to be hypey.
Do you agree that the implications here, I think, are pretty profound, and what does it mean for the field as a whole?

I think it's pretty profound, and I think one of the things that I wondered when we were preparing to release O1, is whether people would recognize its significance. We included it, but it's kind of a subtle point, and I was actually really surprised and impressed that so many people recognized what this meant. There have been a lot of concerns that AI might be hitting a wall, or plateauing, because pre-training is so expensive, and becoming so expensive, and there's all these questions around, like is there enough data to train on, and I think one of the major takeaways about O1, especially O1 preview, is not what the model is capable of today, but what it means for the future. The fact that we're able to have this different dimension for scaling, that is so far pretty untapped, I think is a big deal, and I think means that the ceiling is a lot higher than a lot of people have appreciated.

What happens when you let the model think for hours, or months, or years? What do you think happens?

We haven't had O1 for years, so we haven't been able to let it think that long yet.

Is there a job just running in the background right now, that it's just still thinking about?

Solve world peace. Okay, I'm thinking, thinking, thinking. Y
eah, there's a Asimov story like that called The Last Question, where they asked this big computer-sized AI something about like, how do we reverse entropy? And it says, I need to think longer for that, and like the story goes, and then ten years later they see, and it's still thinking, and then a hundred years later, and a thousand years later, and then ten thousand years later. Yeah.

There is as yet meaningful, not enough information for a meaningful answer, or something like that.

Yeah, like it's still, yeah.

Do you have a guess empirically on, you know, what'll happen? You know, or I guess right now, I think the model has, I've seen some reports, like a hundred and twenty IQ, so like very, very smart. Is there, is there a ceiling on that, as you scale up inference time compute? Do you think you get to infinite IQ?

One of the important things is that, like, it's a hundred and twenty IQ on some test someone gave. This doesn't mean that it's got like a hundred and twenty IQ level reasoning at all the different domains that we care about. I think we even talk about how it is below 4.0 on some things, like creative writing and whatnot. So there's definitely, it's like, it's confusing to think about how we extrapolate this model.

I think, I think it's an important point that, you know, we talk about these benchmarks, and we, one of the benchmarks that we highlighted in our results was GPQA, which is this, you know, questions that are given to PhD students, and like typically PhD students can answer, and the AI is outperforming a lot of PhDs on this benchmark right now. That doesn't mean that it's smarter than a PhD in, like, every single way imaginable. There's a lot of things that a PhD can do that, you know, there's a lot of things that a human can do, period, that the AI can't do. And so you always have to, like, look at these evals with some understanding that, like, it's measuring a certain thing that is typically a proxy for human intelligence when you measure, you know, when humans take that test, but means something different when the AI takes that test.

Maybe a way of framing that as an answer to the question is that I hope that we can see that letting the model think longer on the kinds of things that it's already showing it's good at, we'll continue to get it better. So one of my big Twitter moments was, I saw a professor that I had in school, a math professor, was tweeting about how he was really impressed with O1 because he had given it a proof that had been solved before by humans but never by an AI model, and it just took it and ran with it and figured it out. And that to me feels like we're at the cusp of something really interesting where it's close to being a useful tool for doing novel math research, where if it can do some small lemmas and some proofs for, like, real math research, that would be really, really a breakthrough. And so I hope by letting it think longer, we can get better at that particular task of being a really good math research assistant. It's harder for me to extrapolate what it's gonna look like, well, will it get better at the things that it's not good at now? What would that path forward look like? And then what would the infinite IQ or whatever look like then, when it thinks forever on problems that it's not good at? But instead, I think you can kind of ground yourself in a, here are the problems it's good at, if we let it think longer at these, oh, it's going to be useful for math research, oh, it's going to be really useful for software engineering, oh, it's going to be really, and you can start to play that game and start to see how I hope the the future will evolve.

その道筋について話そう。推論時間のスケーリング法則。私にとっては、これはあなた方が発表した研究の中で最も重要なグラフであり、プレトレーニングのスケーリング則に似た、記念碑的な結果のように思えます。
また、この分野全体にとってどのような意味を持つのでしょうか?

O1のリリースの準備をしていたとき、その重要性を理解してもらえるかどうかが心配でした。私たちはそれを盛り込んだが、それは微妙なポイントのようなもので、実際、多くの人がこの意味を認識してくれたことに本当に驚いたし、感銘を受けた。AIが壁にぶつかっているのではないか、あるいは頭打ちになっているのではないかという懸念がたくさんあります。事前トレーニングは非常に高価で、コストが高くなりつつあり、トレーニングに十分なデータがあるのかというような疑問があるからです。O1、特にO1プレビューに関する大きな収穫のひとつは、モデルが現在何ができるかということではなく、それが将来的に何を意味するかということだと思います。スケーリングのためにこのような異なる次元を持つことができるという事実は、今のところかなり未開拓ですが、私は大きなことだと思いますし、多くの人が評価しているよりも天井がずっと高いということだと思います。

モデルに何時間も、何カ月も、何年も考えさせたらどうなるだろうか?何が起こると思いますか?

O1はまだ何年も使っていないので、そんなに長く考えさせることはまだできていない。

今、バックグラウンドで動いている仕事があるのだろうか?

世界平和のために。考えている、考えている、考えている。Y
アシモフの小説に『最後の質問』ってのがあるんだけど、この大きなコンピューターサイズのAIに、どうやってエントロピーを逆転させるかって質問するんだ。そして10年後、AIはまだ考えていて、それから100年後、1000年後、そして1万年後を見るんだ。そうだ。

まだ意味のある、意味のある答えを出すのに十分な情報がない、そんな感じかな。

そう、まだね。

経験的に、何が起こるか推測できますか?今のところ、このモデルはIQが120くらいで、とても頭がいいという報告もあります。推論時間の計算量を増やすと、その上限はあるのでしょうか?IQは無限大になると思いますか?

重要なことのひとつは、誰かが行ったテストでIQが120点だったということです。これは、私たちが関心を持つさまざまな領域すべてにおいて、IQ120レベルの推論能力を持っているという意味ではありません。クリエイティブ・ライティングのように、IQが4.0を下回ることもあります。だから、このモデルをどのように外挿するかを考えるのは混乱するんだ。

私たちはこのようなベンチマークについて話していますが、私たちが結果の中で強調したベンチマークの1つはGPQAです。これは博士課程の学生に与えられる問題で、一般的に博士課程の学生が答えることができます。だからといって、AIが博士号取得者よりもあらゆる面で賢いというわけではありません。博士号を持っていてもできることはたくさんあるし、人間にはできてもAIにはできないこともたくさんある。だから、人間がテストを受けるときには人間の知能の代用となるものを測定しているけれども、AIがテストを受けるときには違うものを測定しているということを理解した上で、これらのテストを見なければならない。

この質問に対する答えとしては、モデルがすでに得意だと示している種類のことについて、より長い時間考えさせることで、より良い結果を出し続けることができるようになることを期待しています。私のツイッターでの大きな出来事のひとつは、私が学生時代にお世話になった数学の教授が、O1にとても感銘を受けたとツイートしていたことです。なぜなら、人間が解いたことはあっても、AIモデルが解いたことはない証明をO1に与えたところ、O1はそれを受け止めて実行し、解き明かしたからです。もしO1が小さなレンマや証明をして、本当の数学の研究に役立てることができれば、それは本当に画期的なことです。だから、もっと長い時間考えさせることで、本当に優れた数学研究アシスタントという特殊なタスクをよりうまくこなせるようになることを期待しているんだ。今、苦手なことが得意になるのだろうか?その道筋はどのようなものだろうか?そして、苦手な問題を永遠に考え続けたとき、無限のIQとかはどうなるんだろう?その代わりに、得意な問題はこれだ、これをもっと長く考えさせたら、数学の研究に役立つだろう、ソフトウェア工学に本当に役立つだろう、ああ、本当に役立つだろう、と考えることができると思います。

35:10 - Bottlenecks to scaling test-time compute (テスト時計算能力のスケーリングのボトルネック)

英文

What are the bottlenecks to scaling test time compute? I mean, for pre-training, it's pretty clear you need enormous amounts of compute, you need enormous amounts of data, this stuff requires enormous amounts of money. Like, it's pretty easy to imagine the bottlenecks on scaling pre-training. What constrains sort of the scaling of inference time compute?

When GPT-2 came out and GPT-3 came out, it was like pretty clear that like, okay, if you just throw more data and more GPUs at it, it's going to get a lot better. And it still took years to get from GPT-2 to GPT-3 to GPT-4. And there's just a lot that goes into taking an idea that sounds very simple and then actually like scaling it up to a very large scale. And I think that there's a similar challenge here where, okay, it's like a simple idea, but you know, there's a lot that work that has to go into actually scaling it up. So I think that's the challenge.

Yeah, I think that one thing that I think maybe doesn't any more surprise, but one thing I think might have used to surprise more academic-oriented researchers who join OpenAI is how much of the problems we solve are engineering problems versus research problems. Building large-scale systems, training large-scale systems, running algorithms that have never been invented before on systems that are brand new is a skill no one's ever thought of is really hard. And so there's always a lot of just like hard engineering work to make these systems scale up.

Also one needs to know what to test the model on. So we do have these standard evals as benchmarks, but perhaps there are ones that we are not yet testing the model on. So we're definitely looking for those where we can just spend more compute on test time and get better results.

One of the things I'm having a hard time wrapping my head around is, you know, what happens when you give the model, you know, near-infinite computes? Because as a human, I am, you know, even if I'm Terence Tao, like I am limited at some points by my brain, whereas you can just put more and more compute at inference time. And so does that mean that, for example, all math theorems will eventually be solvable through this approach? Or like, where is the limit, do you think?

Infinite computes a lot of compute.

Near-infinite.

It goes back to the Asimov story of you're waiting 10,000 years, but maybe. But I say that just to ground it in a, like we don't know yet quite what the scaling of this is for how it relates to solving really hard math theorems. It might be that you really do need to let it think for a thousand years to solve some of the unsolved, like, core math problems.

Yeah. Yeah, I mean, I think it is true that, like, if you let it think for long enough, then in theory you could just go through, like, you know, you formalize everything in Lean or something, and you go through every single possible Lean proof, and eventually you stumble upon the theorem.

Yeah, we have algorithms already that can solve any math problem, is maybe what you were about to get at.

Yeah, like, given infinite time, you can do a lot of things.
Yeah, so, you know, clearly it gets some diminishing returns, as you think, for longer.

テスト時間の計算をスケールアップするためのボトルネックは何でしょうか?つまり、プリ・トレーニングのためには、膨大な量の計算機、膨大な量のデータ、膨大な資金が必要なのは明らかです。プレトレーニングのスケーリングにボトルネックがあることは容易に想像できます。推論時間計算のスケーリングを制約するものは何でしょうか?

GPT-2が登場し、GPT-3が登場したとき、より多くのデータとGPUを投入すれば、かなり良くなることは明らかでした。それでも、GPT-2からGPT-3、GPT-4へと移行するのに何年もかかりました。非常にシンプルに聞こえるアイデアを、実際に大規模にスケールアップするには、多くのことが必要です。ここにも同じような挑戦があると思います。シンプルなアイデアですが、実際にスケールアップするためには多くの作業が必要なのです。それが課題だと思います。

OpenAIに参加するアカデミック志向の研究者を驚かせることはもうないかもしれませんが、以前はもっと驚かせていたかもしれません。大規模なシステムを構築し、大規模なシステムを訓練し、真新しいシステム上でこれまで発明されたことのないアルゴリズムを実行することは、誰も考えたことのないスキルであり、本当に難しいことです。そのため、これらのシステムをスケールアップさせるためには、常に大変なエンジニアリング作業が必要になる。

また、どのようなモデルをテストすべきかを知る必要もある。私たちはベンチマークとして標準的な試験を実施していますが、もしかしたらまだモデルをテストしていない試験もあるかもしれません。そのため、テストにより多くの計算時間を費やし、より良い結果を得ることができるものを探しています。

私が頭を悩ませていることのひとつは、モデルに無限に近い計算をさせたらどうなるか、ということです。というのも、人間である私は、たとえテレンス・タオであったとしても、自分の脳によって制限されているところがあるからです。ということは、例えば、すべての数学の定理は最終的にこのアプローチで解けるようになるのでしょうか?あるいは、限界はどこにあると思いますか?

無限は多くの計算をする。

無限に近い。

アシモフの「1万年待つことになる」という話に戻りますが、そうかもしれません。ただ、本当に難しい数学の定理を解くために、このスケーリングがどの程度必要なのか、まだよく分かっていません。未解決の数学の核心的な問題のいくつかを解くためには、本当に1000年考えさせる必要があるのかもしれない。

そうだね。理論的には、リーン法か何かですべてを形式化し、リーン法の証明の可能性をひとつひとつ調べていけば、最終的に定理に行き当たるということだ。

どんな数学の問題でも解くことができるアルゴリズムはすでにある。

無限の時間があれば、いろいろなことができる。
そう、だから、長くなればなるほど、明らかに収穫は減っていくんだ。

38:46 - Biggest misunderstanding about o1? (o1に関する最大の誤解?)

英文

Yeah, very fair. What do you think is the biggest misunderstanding about O1?

I think a big one was, like, when the name Strawberry leaked. People assume that, like, it's because of this popular question online of, like, the models can't answer how many R's are in Strawberry, and that's actually not the case. When we saw that question, actually, we were really concerned that there was some internal leak about the model, and as far as we know, there wasn't. It was just, like, a complete coincidence that our project was named Strawberry, and there was also this, like, popular reasoning about strawberries.

As far as I can tell, the only reason it's called Strawberry is because at some point, at some time, someone needed to come up with a codename, and someone in that room was eating a box of strawberries, and I think that's really the end of it.

It's more relatable than Q-Stack.

I think I was pretty impressed with, like, how well understood it was, actually. Yeah, I, we were actually not sure how it was gonna be received when we launched. There was a big debate internally about, like, are people just gonna be, like, disappointed that it's, like, you know, not better at everything? Are people gonna be, like, impressed by, you know, the crazy math performance? And what we were really trying to communicate was that it's not really about the model that we're releasing. It's more about where it's headed. And I think I was, yeah, I wasn't sure if that would be well understood, but it seems like it was. And so I think I was actually very, very happy to see that.

Is there any criticism of O1 that you think is fair?

It's absolutely not better at everything. It's a funky model to play with. I think people on the internet are finding new ways to prompt it to do better. So there's still a lot of weird edges to work with. I don't know. I'm really excited to see, someone had alluded earlier to letting the ecosystem work with our platform to make more intelligent products, to make more intelligent things. I'm really interested to see how that goes with O1. I think we're in the very early days. It's kind of like, I don't know, at some point a year ago, people started to really figure out these LMPs or these language model programs with GPT-4 or whatever. And it was enabling smarter software engineer tools and things like that. Maybe we'll see some similar kinds of developments with people building on top of O1.

ああ、とてもフェアだ。O1についての最大の誤解は何だと思いますか?

大きなものは、ストロベリーという名前がリークされたことだと思う。ストロベリーのRがいくつあるか、モデルが答えられないというような質問がネット上で流行っているからだと思われていますが、実際はそうではありません。その質問を見たとき、私たちはモデルについて何か内部リークがあるのではないかと本当に心配した。私たちのプロジェクトがストロベリーという名前であったことと、ストロベリーに関する一般的な推論があったことは、まったくの偶然だったのです。

私が知る限り、このプロジェクトがストロベリーという名前になったのは、ある時点で誰かがコードネームを考える必要があり、その部屋の誰かがストロベリーの箱を食べていたからだ。

Qスタックよりも親近感がわく。

Q-Stackよりも親近感が湧きますね。ああ、実際、立ち上げ当初はどう受け止められるか分からなかったんだ。社内で大議論になったんだ。「Q-Stack 」がすべてにおいて優れているわけではないことに、みんながっかりするのか?それとも、クレイジーな数学のパフォーマンスに感動するのか?私たちが本当に伝えたかったのは、私たちがリリースするモデルのことではない、ということです。もっと重要なのは、それがどこに向かっているかということなんだ。それが理解されるかどうかはわからなかったが、どうやら理解されたようだ。だから、それを見て、とてもとても嬉しかったんだ。

O1に対する批判で妥当だと思うものはありますか?

すべてが優れているわけでは絶対にない。遊ぶにはファンキーなモデルだ。インターネット上の人々は、O1をより良くするための新しい方法を見つけていると思う。だから、まだ奇妙なエッジがたくさんあるんだ。どうだろうね。先ほど誰かが、よりインテリジェントな製品、よりインテリジェントなものを作るために、エコシステムを私たちのプラットフォームと連携させると言っていました。それがO1でどうなるのか、とても興味があります。私たちはまだ初期段階にいると思います。1年前のある時点で、GPT-4などを使ったLMPや言語モデル・プログラムを理解し始めたようなものです。それによって、よりスマートなソフトウェアエンジニアツールなどが実現された。もしかしたら、O1の上で同じような開発が行われるかもしれない。

41:13 - o1-mini (o1-mini)

英文

Speaking of which, one of the things that we have not talked about is O1 Mini. And I've heard a lot of excitement about O1 Mini, because people are generally excited about small models. And if you can preserve the reasoning and extract some of the world knowledge for which deep neural nets are not exactly the most efficient mechanism, that's a pretty decent thing to end up with. So I'm curious, what's your level of excitement about O1 Mini and kind of the general direction that that represents?

I think it's a super exciting model also for us as researchers. If a model is fast, it's universally useful. So yeah, we also like it. Yeah, they kind of serve different purposes. And also, yeah, we are excited to have like a cheaper, faster version, and then kind of like a heavier, slower one as well. Yeah, they are useful for different things. So yeah, definitely excited that we ended up with a good trade-off there.

I really like that framing, because I think it highlights how much progress is, like how much you can move forward times how much you can iterate. And at least for our research like Elga gets at, O1 Mini lets us iterate faster, hopefully for the broader ecosystem of people playing with these models, O1 Mini will also allow them to iterate faster. And so it should be like a really useful and exciting artifact, at least for that reason.

そういえば、まだ話していないことのひとつにO1ミニがある。O1ミニについては、多くの興奮を耳にしました。一般的に、人々は小さなモデルに興奮しているからです。

推論を維持し、ディープ・ニューラル・ネットが必ずしも最も効率的なメカニズムではない世界の知識の一部を抽出することができれば、最終的にはかなりまともなものになります。では、O1ミニについてのあなたの興奮の度合いと、O1ミニが示す一般的な方向性についてお聞かせください。

研究者としても非常にエキサイティングなモデルだと思う。モデルが速ければ、それは普遍的に有用です。だから、僕たちも気に入っているんだ。ええ、それぞれ異なる目的を果たすものです。

それに、安くて速いバージョンもあれば、重くて遅いバージョンもある。そう、それぞれ違うことに役立つんだ。だから、いいトレードオフができたことに興奮しているよ。

僕はこのフレーミングがとても好きなんだ。どれだけ前進できるか、どれだけ反復できるかということが強調されていると思うからね。そして、少なくともエルガのような私たちの研究においては、O1 Miniは私たちをより速く反復することを可能にしてくれるし、これらのモデルで遊んでいる人々のより広いエコシステムにおいても、O1 Miniが彼らをより速く反復することを可能にしてくれることを期待している。少なくともそのような理由から、O1 Miniは本当に便利でエキサイティングな成果物になるはずです。

42:15 - How should founders think about o1? (創業者はo1をどう考えるべきか?)

英文

For founders who are building in the AI space, how should they think about, you know, when they should be using GPT-4 versus O1? Like, do they have to be doing something STEM-related, coding-related, math-related to use O1? Or how should they think about it?

I'd love if they could figure that out for us.

One of the motivations that we had for releasing O1 Preview is to see what people end up using it for, and how they end up using it. There was actually some question about whether it's even worth releasing O1 Preview. But yeah, I think one of the reasons why we wanted to release it was so that we can get into people's hands early and see what use cases it's really useful for, what it's not useful for, what people like to use it for, and how to improve it for the things that people find it useful for.

Anything you think people most under-appreciate about O1 right now?

It's like, somewhat proof we're getting a little bit better at naming things. We didn't call it, like, GPT-4.5 Thinking Mode, whatever.

Well, I thought it was Strawberry, I thought it was Q-Star, so...

I don't know, Thinking Mode, that kind of has a ring to it. What are you guys most excited about for O2, O3, whatever may come next?

O3.5, whatever.

We're not at a point where we're out of ideas, so I'm excited to see how it plays out. Just keep doing our research. But yeah, most excited about getting the feedback, because as researchers, we are clearly biased towards the domains that we can understand, but we'll receive a lot of different use cases from the usage of the product, and we're going to say, maybe, like, oh yeah, this is an interesting thing to push for. And yeah, beyond our imagination, it might get better at different fields.

I think it's really cool that we have a trend line, which will be posted in that blog post, and I think it'll be really interesting to see how that trend line extends.

Wonderful. I think that's a good note to end on. Thank you guys so much for joining us today.

AIの分野で開発を進めている創業者にとって、GPT-4とO1の使い分けはどのように考えるべきでしょうか?O1を使うには、何かSTEM関連、コーディング関連、数学関連のことをしなければならないのか?あるいは、どのように考えるべきなのか。

私たちのためにそれを考えてくれたら嬉しい。

O1プレビューをリリースした動機のひとつは、人々が最終的にO1を何に使い、どのように使うのかを確認することでした。実際、O1プレビューをリリースする価値があるのかという疑問もあった。しかし、O1プレビューをリリースしようと思った理由のひとつは、早い段階で人々の手に渡り、どのようなユースケースで本当に役に立つのか、役に立たないのか、人々がどのような使い方をするのが好きなのか、そして、人々が役に立つと思うことのためにどのように改善すればいいのかを確認するためだと思います。

今、O1について人々が最も過小評価していると思うことは?

ネーミングが少しうまくなってきた証拠かな。GPT-4.5シンキングモードとか、そういう名前じゃないんだ。

まあ、ストロベリーだと思ってたし、Q-Starだと思ってたから...。

でも、シンキング・モードって、なんだか響きがいいよね。O2、O3、その次に来るかもしれないもので、あなたたちが最も楽しみにしているものは何ですか?

O3.5でも何でも。

アイデアが尽きたわけではないので、どうなるか楽しみだ。研究を続けるだけだよ。研究者として、私たちは明らかに自分たちが理解できる領域に偏っているからね。でも、製品の使い方からさまざまなユースケースを受け取るだろうし、もしかしたら、ああ、これは推し進めるべき興味深いものだ、と言うかもしれない。そして、私たちの想像を超えて、さまざまな分野でより良くなるかもしれない。

傾向線があるのは本当にクールだと思う。そのブログ記事に掲載される予定だが、その傾向線がどのように伸びていくのか、本当に興味深いことだと思う。

素晴らしい。これで終わりにしましょう。今日はありがとうございました。

まとめ

o1って、強化学習を利用することで、「長く考える」ということや、「誤りがあった時に一歩戻って考え直す(バックトラッキング)」という仕組みが入ってるんですね。

モデルがただ次のトークンを予測するだけではなく、特定の目的に向かって「どのように考えを進めるべきか」というのを、強化学習を利用してトレーニングしており、その結果、従来のLLMと比べて、STEM分野で優れた性能を発揮できるんですね。

しかも、今まで、強化学習はある特定のドメインでしか活躍できていませんでしたが、今回o1の登場により、自然言語処理の中で活用ができることがわかったため、いろいろなタスクを解くのに強化学習がどんどん使われるようになるだろう、というお話は、強化学習オタクとしては、未来が非常に楽しみです!

勉強になりました!

ちなみに、強化学習ってどんなの?というのは、下記を見ていただくと非常によくわかると思います。

ゼロから作るDeep Learning ❹ ―強化学習編
手のひらサイズの環境から始めて、少しずつ強化学習でやりたいことを理論的に学ぶことができます。
私はこの本から強化学習にはまり、スイカゲームを強化学習で解くなどして遊んでいました。

強化学習 (機械学習プロフェッショナルシリーズ)
より広く、深く、数学的に理論を学びたい方は上記がおすすめです。
特に2025年1月6日時点では、kindleで購入したらポイントが半分返ってくるそうです。
(今買えば良かった)

ここまで読んでくださってありがとうございました!

Discussion