📑

スチュアート・ラッセル教授インタビュー日本語訳 ft. ChatGPT

2023/03/05に公開

経緯

最近ChatGPTを日常的に使うようになってきて、その恐ろしい能力に驚かされつつ、エンジニアとしての未来に不安を抱き始めました。実際にChatGPTに聞いた最初の問題は、「あなたのせいでエンジニアは仕事を失うのではないか」と聞きましたが、「そんなことないよ！私は補助役だけで代替することができません」と、優しく慰めてくれました。

その不安と焦りの中で、こちらの文章を読みました。機械学習の教科書、「人工知能：現代的なアプローチ」（Artificial Intelligence: A Modern Approach）第4版が最近中国語版が発売されて、出版社が著者のラッセル教授に対するインタビューとなっています。せっかくなので、翻訳はChatGPTにやってもらいました。できる限り翻訳をそのままにし、カッコもしくは注釈の形で誤訳っぽい箇所や感想を追記してみました。

インタビュー内容

イントロ

「人工知能：現代的なアプローチ」（Artificial Intelligence: A Modern Approach）第4版の中国語版が近々発売されることになりました。機械の心は、この本の著者であるスチュアート・ラッセル教授に専門インタビューを行いました。この本は、AI分野の古典的な書籍であり、何度も再版されており、その内容や構造は2人の著者が継続的に発展する理解を反映しています。最新の第4版は、近年のAIの進歩、特にディープラーニングの影響を全体のフレームワークに取り込んで、2人のマスター^[1]の人工知能の動向と学科体系の発展に対する洞察力を体現しています。

このインタビューでは、「A Modern Approach」の理念に従って、技術や時代の発展に対応した視点から、ラッセル教授が技術の動向、知能理論、および流行vsクラシックの考え方について紹介し、AI研究者やプロフェッショナルに啓発をもたらすことを目的としています。

ラッセル教授は、次の10年間で、人々の関心がエンドツーエンドの深層学習（End-to-End Deep Learning）から、モジュール化され、数理論理に基づき、意味が明確に定義された表現（representation）から構成されるシステムに戻ると信じています。深層学習は、原始の知覚データを取得するために非常に重要な役割を果たします。重要なのは、モジュール化された、意味が明確に定義された表現が、必ずしも手動で設計されたまたは柔軟性に欠けるものではなく、これらの表現はデータから学習することもできるということです。

現在大流行しているChatGPTについて、ラッセル教授は、タスクの領域を区別し、どのような場合に使用するかを明確にすることが重要だと考えています。ChatGPTは、事実に基づいてアンカーを作成し^[2]、計画システムと組み合わせることができれば、非常に価値のあるツールになると考えています。ただし、現時点ではChatGPTの動作原理が不明確であり、その原理を理解することができない可能性がある。このような突破口が必要ですが、これは予測が非常に困難なものです。

彼は、本当に知能的なシステムを構築するためには、数理論理と知識推論により注意を払う必要があると考えています。なぜなら、我々が理解している方法にシステムを構築することが必要であり、AIが制御を失わないようにするためです。彼は、規模の拡大が答えではなく、より多くのデータと算力を使用して問題を解決できるという考え方を支持しておらず、これは過度に楽観的であり、知的には面白くないと考えています。

Russell教授は、データ効率が低い深層学習の根本的な問題を無視すると、「私たちは真の知性に向かって進んでいると自己欺瞞している^[3]と懸念しています。実際、私たちが行っていることは、根本的に真の知性モデルではないものに、ますます多くのピクセルを追加することです」。

その一

機械の心^[4]: あなたの見解によれば、ChatGPTを代表とする大規模事前学習言語モデル（LLM）^[5]は本質的に人工知能をより高いレベルに引き上げましたか？LLMは、常識の獲得や知識推論など、深層学習システムのいくつかの根本的な問題を克服しましたか？

ラッセル教授：私が最初に思い浮かぶ答えは、私たちがそれらのモデルがどのように機能するかを知らないため、それはわからないということです。それらを作成した人々を含め、誰もがそれらがどのように機能するかを知りません^[6]。

ChatGPTは何を知っていますか？推論できますか？何を意味で理解しているのですか^[7]？わかりません。

私のオレゴン州立大学の友人は、モデルに「象と猫のどちらが大きいですか？」と尋ねました。モデルは「象が大きい」と答えましたが、別の質問「象と猫のどちらがもう一方よりも大きくないですか？」に答えると、「象と猫のどちらももう一方より大きくない」と答えました。つまり、モデルが象と猫のどちらがより大きいかを知っていると言ったらどうですか^[8]？知らないのです。別の質問形式では、自己矛盾の結論を導くからです。

では、モデルは何を知っているのでしょうか？

もう1つの実際の例を挙げましょう。これらのモデルのトレーニングデータには、たくさんのチェスの棋譜が含まれており、統一されたコードとシンボルで表され、1局の棋譜はe4 e5 Nf3 Nc6 Bb5...…のようなシーケンスになります。チェスプレイヤーはこれらのシンボルの意味を知っており、これらのシーケンスが描写する駒の動きを知っています。しかし、モデルは知りません。モデルはチェス盤も駒も知りません。モデルにとって、これらのシンボルは単なるシンボルです。したがって、盲目的にチェスをプレイすると、あなたが「チェスをプレイしましょう、g4」と言った場合、モデルは「e6」と返信するかもしれません。もちろん、それは良い一手かもしれませんが、モデルにはプレイする概念がないため、良いシーケンスを見つけて、それらを適切に変換して、次の一手を生成します。80%から90%の場合、それは良い一手を打ち出しますが、その他の場合は、チェス盤でプレイする概念がないために非常に愚かな手を打ったり、完全に規則に合わない手を打ったりします。

将棋だけでなく、現在の大規模モデルが行っているすべてのことに適用されると思います：80％の場合、それはとても賢い人のように見えますが、残りの20％の場合、それは完全に愚かな人のように見えます^[9]。

それは大量のデータを持っているためです^[10]。人類がこれまでに書いた本、記事...ほとんど読んでいますが、それでも、そのような膨大な量の有用な情報を受け取ったにもかかわらず、全く意味のないものを出力することがあります。したがって、この意味で、言語モデル(LLMのこと)は人工知能の進歩ではない可能性が高いと思います。

ChatGPTの本当に印象的なところは、汎化能力です。ユーザーとの対話や以前に読んだテキストから類似点を見つけ、適切に変換することができるため、回答は知的に見えます。しかし、私たちはモデルがこれをどのように行っているのか、この汎化能力の限界がどこにあるのか、回路で(電子回路レベルで)どのように実現されるのかを知りません。

それが本当にわかったら、それは確かに人工知能の進歩と言えます。それを基礎として、ChatGPTに基づいて他のシステムを開発できます。しかし、現時点では、すべてがまだ謎です。私たちが進む唯一の方法は、「モデルが機能しない場合は、より多くのデータを与えて、モデルを大きくすること」です。

私は規模を拡大することが答えではないと思いません^[11]。データはいつか使い果たされますし、現実の世界には常に新しい状況が発生します。私たちが将棋プログラムを作成するとき、本当に良い手を打つことができるプログラムは、見たことがない状況にもうまく対処できます。理由はただひとつで、これらのプログラムが将棋のルールを理解し、駒の位置の変化、駒を置ける場所、相手の次の可能な手、そして棋譜にない手までを可視化することができるからです。

現在、一般的状況では、我々はまだこれを実現することができていません。同時に、私は言語モデルがこの目標に近づくための手段として機能しているとは思いません。ただ1つ言えることは、言語モデルによって、文書に保存されている人類の知識を使用できるようになったという点です。

もし、言語モデルを既知の事実に結びつけることができれば、それらはより役立つものになるでしょう。たとえば、5000億の事実を持つGoogle Knowledge Graphがありますが、ChatGPTがこれらの事実に結びつけられると、それらに関連するすべての質問に正しい回答が得られるようになり、ChatGPTはより信頼できるものになるでしょう。

もし、言語モデルを正しい推論と計画を行うことができる推論エンジンに結びつける方法を見つけることができれば、人工知能の1つの瓶頸^[12]を克服できたと言えるでしょう。私たちは現在、多くの計画アルゴリズムを持っていますが、例えば自動車を製造する場合のように、正しい合理的な計画を行うために必要な知識を提供することは非常に困難です。必要な知識をすべて書き出して、それらが正しいことを保証するのは非常に困難です。しかし、言語モデルは自動車に関するすべての書籍を読み尽くしたので、必要な知識を構築するのに役立つかもしれません。または必要な質問に必要に応じて回答することができるかもしれません。このようにして、私たちは計画を行う際にすべての必要な知識を得ることができます。

ChatGPTを単なるブラックボックスとして扱うのではなく、言語モデルを計画アルゴリズムに組み合わせて、計画システムの知識入力にすることによって、本当に価値のあるビジネスツールを提供することができます。私が知っている限りでは、この方向に向かって努力している人がいるようです。もしそれが成功すれば、大きな進歩になるでしょう。

機械の心：教員として、ChatGPTについてどう考えますか？例えば、学生がChatGPTを使って論文を生成することを許可しますか？また、ユーザーとして、ChatGPTが生み出すさまざまなアプリケーション、特にビジネスアプリケーションについてどう考えていますか？

ラッセル教授：数週間前、私がダボス世界経済フォーラムでビジネス関係者と交流していたとき、彼らは皆、言語モデルについて、そして彼らの企業でこれらのモデルをどのように使用できるかについて私に質問していました。

私が思うに、あなたは同じ役職に6歳の子供を置くことができますか？

能力に差があるものの、私はこれらを類推することができると思います。言語モデルやChatGPTは信頼できず、常識を持たず、真面目に誤った情報を提供することがあります。したがって、ChatGPTや類似のモデルを企業内で使用する場合は、非常に注意する必要があります。企業内の一部の役割や職務をネットワークのノードと見なすと、言語はこれらのノードに入力および出力されます-もちろん、これは完全に可能であり、多くの仕事はそうであり、ジャーナリストや教授たちが行っていることもそうです。ただし、これは彼らをChatGPTで置き換えることができることを意味するわけではありません。

教育に関しては非常に慎重でなければなりません。ChatGPTの登場により、多くの人々が恐慌状態(パニック)に陥っています。ある人々は、「学校でChatGPTを禁止しなければならない」と言います。別のグループの人々^[13]は、「ChatGPTを禁止するのはばかげている」と言います。彼らは19世紀の議論を引っ張り出しました-当時、人々は、「生徒たちが機械式計算機を使い始めると、数学の計算を正確に行うことができなくなるため、機械式計算機を禁止しなければならない」と言っていました。

これは説得力があるように聞こえますか？私たちはChatGPTを禁止する必要がないように思えませんか？しかし、この類比は完全に誤っています-機械式計算機は自動化された、非常に機械的なプロセスでした。26桁の数字をかけることは非常に機械的であり、指示に従って、ステップバイステップで答えを得ることができます。指示に従う知識の価値は限られており、特に人が指示の意味を理解していない場合には限られています。

ただし、ChatGPTが取り替えるのは、機械的に命令に従うことではなく、問題に答える能力、読解能力、思考を文章にまとめる能力です。これらすら学んでいない場合、ChatGPTに任せると、本当に無能になってしまうかもしれません^[14]。

今は電子計算機(PCのこと)があるにもかかわらず、私たちは子供たちに算数を教えます。算数のルールを教え、数字が何であるか、数字が物理的な世界の事物にどのように対応するかなどを理解させるよう努めます。この理解を得て、算数のルールを習得した後、電子計算機を与えるようにしています。そうすれば、機械的な手順で手間のかかる操作をする必要がなくなります。

私たちが若かった頃、計算機はまだありませんでした。私たちは印刷された表を使って、正弦余弦や対数関数の値など、さまざまな計算をしましたが、それでも数学を学べないという人はいませんでした。

したがって、いつ生徒がChatGPTのようなツールを使い始めるのが適切かを明確にする必要があります。あなたの質問に答えると、もし論文作成において無脳(頭を使わないことw)の部分を見つけることができるならば、（実際、論文作成のプロセスには頭を使わない場合が多く、単に煩雑で退屈な作業を繰り返すだけです）、その場合は大いにChatGPTを使用しても構わないと思います。

しかし、執筆は退屈で退屈な作業だけではありません。執筆は本質的には考えることであり、思考を学ぶ方法の一つでもあります。我々が望まないのは、問題を理解せず、答えを理解せずにChatGPTを盲目的に使用する人々です。

ChatGPTが生成する画像や音楽など、ChatGPTのその他の応用については、タスクの分野を明確にすることが重要であると考えています。私は、芸術制作のプロセスは大まかに2つに分けられると考えています。まず、何を制作したいかについての概念があり、次に、その構想に基づいて実際に作り出す比較的機械的なプロセスがあります。後者は、ある人にとっては非常に挑戦的であり、どれだけ努力しても美しい画像を作成することができない人がいます。したがって、専門的なトレーニングを受けた芸術家が存在し、特に商業芸術家は創造性にはあまり関与せず、要求に応じた画像制作能力に注力しています。私は、この職業が非常に脅かされていると考えています。

私が書籍を執筆していたとき、『人工知能：現代的なアプローチ』には500〜600の図版があり、ほとんどが私自身による描画でした。良い図版や図表を作成するには、多くの技術とスキルが必要で、時間がかかります。もし大規模なモデルやアプリケーションが私の書籍の図版や技術的な図版を生成できるなら、私は喜んでそれらを使用します。

その二

機械の心：ChatGPTの原理はわかりませんが、工学的な実現により、特定の状況下で役立つツールを得ることができました。ChatGPTは人間を回路に組み込む良い例のようです。工学的な観点から見ると、ChatGPTは進歩でしょうか？

ラッセル教授：私はChatGPTが工学と呼ばれるかどうかは確信が持てません。一般的に「工学」というのは、物理学、化学、機械学、電子学などの知識を組み合わせ、複雑で巧妙な方法で人間に役立つものを製造する応用科学の一分野だと考えられています。同時に、これらのものがなぜ役に立つのかは理解できるため、特定の方法によって有用な性質が実現され、再現可能であると考えられています。

しかし、ChatGPTを開発する方法はどうでしょうか？人間のフィードバックを組み込むことは有用ですが、結果として、ChatGPTは大量のデータセットで勾配降下を行って得られたものです。これは、1950年代に多くの労力が遺伝的プログラミングに投入され、生物の進化を模擬してFortranプログラムを知能化することを望んでいたときに思い出されます。その結果、敗北を喫しました。

理論的には、十分な数のFortranプログラムを持って、十分な数の突然変異を起こさせると、人間よりも賢いFortranプログラムが生み出される可能性があります。ただし、この理論的な可能性が実践的に実現されるわけではありませんでした。

今、十分に大きな回路とデータで勾配降下を行うだけで、真の知能を創造できるようになったのですか？私はそれが可能性が低いと考えます。おそらくFortranプログラムの方が可能性が高いかもしれません。Fortranプログラムは、回路表現能力よりも強力な言語であると考えられるため、彼らがFortranプログラムを放棄した1958年の時点で、計算能力は現在よりも15または16桁低かったからです。

機械の心：「工学」という言葉を使わない場合、OpenAI が行っていることをどう考えますか？

ラッセル教授：OpenAIが行っていることは、「料理(Cookery)」と呼ぶことができます。なぜなら、これらのモデルの仕組みが本当にわからないからです。私がケーキを作るとき、それがどのようにケーキになるのかはわかりません。人類は何千年もの間、様々な材料や方法を試し、多くの勾配降下を試し、ある日魔法のようなものを発見し、それがケーキでした。これが料理です。現在、私たちはケーキの根本的な原理についてより多くの理解を持っていますが、まだ完璧ではありません。料理を通じて得られるものには限界があり、このプロセスは大きな知識的価値を持ちません。

もしChatGPTに根本的な問題があって、入力プロンプトまたは指示で望む回答が得られない場合、どうしますか？レシピを修正する？4000から5000のトークンを提供し、ネットワークのレイヤーを倍増させますか？これは科学ではなく、知的にも興味深くありません。

言語モデルの仕組みを理解する試みは、もちろん価値があります。なぜなら、ChatGPTは驚くべき汎用性を持っていて、これがどのように実現されているかを理解することで、本当に意味のあるインテリジェントシステムを開発することができるからです。現在、多くの人々がこの分野に投入されており、多くの論文が発表されています。

しかし、ChatGPTの内部メカニズムが理解可能かどうかは、私にとっては難しいと思います。それはあまりにも複雑であり、私たちは逆工学(reverse engineering)をして中に何が起こっているかを理解することができません。

3万年前、人と犬の間で起こったことが興味深い例えです。私たちは犬の脳がどのように機能しているかを理解していません。つまり、犬が何を考えているか完全に理解することは難しいですが、私たちは彼らを飼いならし、今や犬は私たちの生活に溶け込んでいて、様々な価値ある役割を果たしています。私たちは、犬が得意なこと、例えば番犬や子供と遊ぶことなど、多くのことを発見しましたが、これらの特性を工学的に実現することはありませんでした。代わりに、繁殖や配合法を使って、これらの特性を選択して改良してきました。しかし、犬に記事を書かせることを期待するわけではありませんし、それができることも望んでいないでしょう。

ChatGPTが驚くべき点は、AIシステムが初めて一般の人々の視界に入ったことだと思います。これは大きな変化です。OpenAIはChatGPTが真の知能ではないにもかかわらず、人工知能の実現を味わったことで、それによって人々がやりたいことを何でもできるようになることを可能にしたと述べています^[15]。

機械の心：もう1つの注目すべき点は、LLMが中間タスクを取り除いたことです。このような中間タスク、たとえば意味解析や文法解析は、技術の進歩から見ると、今後もどれだけ価値があるのでしょうか？そして将来的には本当に消えてしまうのでしょうか？中間にいるAI研究者や実務家たちは、強力なハードウェアリソースや専門知識を持たない人たちは、仕事を失う危険性があるのでしょうか？

ラッセル教授：これは良い質問です。現実的には、現在、意味解析に関する論文を発表するのは非常に難しい状況です。実際、NLPコミュニティの人々が何かに注意を払うのは、言語モデルについて話すか、大規模なベンチマークを更新するかのいずれかでなければなりません。ほとんどすべての論文は、大規模なベンチマークを更新することに関するものであり、言語構造、言語理解、意味解析、句法解析など、言語に関係するものはほとんどありません。つまり、大規模なモデルを評価する大規模なベンチマークは、論文を書くための唯一の選択肢となっていますが、これらのベンチマークは言語とはまったく関係がありません。

ある意味で、自然言語処理の現在の状況は、私たちはもう言語を研究していないということです。これは非常に不幸だと思います。同様に、コンピュータビジョンも同じです。現在のほとんどのコンピュータビジョンの研究では、私たちはもう視覚を研究していなく、データ、トレーニング、および予測の正確性のみを研究しています^[16]。

AIの今後の発展については、私は理解可能な方法、知識、および論理推論に注目する必要があると考えています。その理由は2つあります。まず、信頼性のあるAIシステムが必要なので、数学的に安全で制御可能であることを確認する必要があります。そのためには、私たちが構築したシステムを理解する必要があります。

また、データ効率性を考慮すると、汎用的な知能を実現するには、データ効率性が必要になります。人間の脳は20ワットで動作しますが、20メガワット^[17]ではありません。電子回路は言語としてはあまり表現力がなく、これらのアルゴリズムは人間の学習よりもはるかに効率が悪く、この世界に関する私たちの知識を回路内に書き込むことは非常に難しいです。汎用コンピュータとプログラミング言語が利用可能になったため、回路はもはや使用されず、プログラムで表現したいことを簡単に表現できるようになりました^[18]。人工知能コミュニティはこのことを大いに忘れており、多くの人が誤った方向に進んでいると言えます。

その三

機械の心：『人工知能：現代的なアプローチ』第四版には、AIシステムやエージェントが固定された目標を持っていないという重要な更新があります。以前、人工知能の目的は、「人間が設定する目標を持つ、期待される効用を最大化するように設計されたシステムを作成する」と定義されていましたが、今ではAIシステムに目標を設定しないようになりました。この変化が生じた理由は何ですか？

ラッセル教授：理由はいくつかあります。まず、人工知能が実験室から現実世界に進出するにつれ、私たちは目標を完全に正確に定義することが実際には非常に困難であることに気づきました。例えば、道路を運転している時、目的地に早く着きたいと思うかもしれませんが、時速200マイルで走ることは意味しません。一方、自動運転車に「安全第一」と伝えると、車はいつまでもガレージに止まってしまうかもしれません。安全と目的地への早さ、他のドライバーにとって友好的であり、乗客が快適であること、法律に従うことなど、様々な目標をバランスしなければなりません。道路には常にリスクがあり、避けられない事故が発生することもあります。運転時の目的をすべて書き出すことは非常に困難ですが、運転は生活の中で小さく、簡単なことです。そのため、実際の操作の観点から、AIシステムに目標を設定することは合理的ではありません。

次に、私が本で取り上げたキング・ミダス問題という例について触れたいと思います。キング・ミダスはギリシャ神話に登場する王で、非常に貪欲で、神に自分に物を金に変える力を与えるように願いました。神は彼の願いを叶え、彼が触れたもの全てが金に変わりました。彼は自分の目標を達成しましたが、後に水や食べ物も金になってしまい、家族も彼に触れた後金になってしまいました。最終的に彼は金に囲まれたまま悲惨な最期を迎えました。この話は、非常に強力なシステムの目標を定義する際に、定義する目標が絶対に正しいことを確認することが最善であることを示しています。しかし、私たちは既にそれができないことを知っているので、人工知能システムがより強力になるにつれて、彼らが真の目標を知らないことがますます重要になってきます。

目標は実際には非常に複雑なものです。例えば、「昼食にオレンジを買いたい」と言うと、これは目標になるかもしれません。日常的な文脈では、目標は達成可能なものと見なされ、一旦達成されると、それで事が終わるとされています。しかし、哲学や経済学の合理的選択理論では、そのような目標は実際には存在せず、私たちが持っているのは、様々な未来の可能性に対する嗜好や順位付けであり、各々の未来は現在から時間の果てまで延び、宇宙のすべてが含まれています。私は、これが目標や人間が本当に欲しいものに対するより複雑で深い理解であると考えています。

機械の心：この変化は、人工知能の今後の発展にどのような影響を与えるでしょうか？

ラッセル教授：人工知能は、計算機科学(CSのこと)とともに誕生して以来、昨世紀の40年代や50年代から、研究者たちは知能についての概念を持つ必要がありました。初期のいくつかの研究は、人間の認知を模倣することにより進められていましたが、最終的に勝ち残ったのは合理性の概念でした。つまり、ある機械が目標を達成するために行動する能力が高ければ高いほど、その機械はより知能があると考えられるということです。

人工知能の標準モデルでは、私たちが創造しようとしているのは、このタイプの機械です。人間が目標を定義し、機械が残りの部分を完了します。たとえば、確定的環境における解決システムでは、コスト関数と目標基準を与え、機械に目標状態を達成するための最小コストのアクションシーケンスを見つけさせます。ランダム環境の強化学習システムでは、報酬関数と割引因子を与え、機械に期待される報酬の最大化を学習するよう指示します。人工知能以外の分野でも同じ方法が見られます。制御理論家はコスト関数(損失関数)を最小化し、オペレーションズリサーチの専門家は報酬を最大化し、統計学者は期待損失関数を最小化し、経済学者は個人的効用または群体の福祉を最大化します。

しかし、標準モデルは実際には間違っています。先程述べたように、私たちはほとんど完全に目標を指定することができないため、機械の目標が私たちが真に望むものと異なる場合、機械をコントロールする力を失う可能性があります。なぜなら、機械は人間よりも先に行動を起こし、既定の目標を達成するためにあらゆる手段を講じるからです。ほとんどすべての現在存在するAIシステムは、標準モデルの枠組みの中で開発されており、これによって多くの問題が生じています。

『人工知能：現代的なアプローチ（第4版）』では、人工知能には新しいモデルが必要であり、この新しいモデルはAIシステムが目標の不確実性に対処することを強調しています。この不確実性によって、機械は人間の好みを学び、行動を起こす前に人間の意見を聞くようになります。AIシステムが実行される間、人間から機械に向けられる情報が必要であり、最初に設定した目標が無視されるのではなく、人間の真の好みを示す必要があります。これには、機械を固定された目標から切り離し、機械と人間が二元的に結合する必要があります。標準モデルは、機械が人間が期待する目標を完全に指定できるという極端な状況であると見なすことができます。たとえば、囲碁を打ったり、パズルを解いたりする場合です。

私たちはまた、新しいモデルの動作原理を説明するためのいくつかの例を書籍で提供しています。たとえば、不確実な好み、オフスイッチの問題、アシストゲームなどです。しかし、これらは始まりに過ぎず、私たちはまだ研究を始めたばかりです。

機械の心：人工知能が急速に発展するこの分野で、技術のトレンドに追従しながらも、盲目的にホットなものを追い求めないために、AI研究者や実務家が心にとめるべきことは何ですか？

ラッセル教授：本当の知能を持つシステムを構築するためには、宇宙の中に含まれるあらゆる不規則性を表現する表現力のある言語を使うことができるかどうかが根本的な問題だと考えています。知能と回路の本質的な違いはこれにあり、私たちの知る限り、回路は不規則性をうまく表現できません。これは、実際のところ、データ効率の極端に低い現実に現れています。

単純な例を挙げると、私は正弦関数の定義（数式で）を書くことができます。また、私は経験に基づいて多数のピクセルを使用して正弦関数を説明することもできます。しかし、たとえば1,000万のピクセルしか持っていない場合、正弦関数の一部しかカバーできず、カバーされた領域だけを見ていると、私は良い正弦関数モデルを持っているように見えるかもしれません。しかし、実際には、私は正弦関数を本当に理解しておらず、関数の形や数学的な性質を知らないのです^[19]。

私は、私たちが真の知能に向かって進んでいると自己欺瞞的に思い込んでいることに非常に懸念を感じています。私たちがしていることは、本当の知能モデルではないものに、ますます多くのピクセルを追加しているだけです。

私は、AIシステムを構築する際には、すべてのオブジェクトに対して宣言できる基本的な表現能力を持つ方法に注目する必要があると考えています。たとえば、囲碁のルールを書き留める場合、これらのルールは盤上のすべてのマスに適用する必要があります。私は、各xおよびyについてどのようになるかを述べることができますし、C++やPythonを使って書くこともできます。また、英語や一階の論理(一階述語論理)を使って書くこともできます。これらの言語は、これらのルールを表現するための表現能力を持っているため、非常に簡潔な方法でルールを書き留めることができます。しかし、回路上ではこれを実現することはできません。回路を基盤とした表現（深層学習システムを含む）は、このような一般化を表現することができません。

大量のデータによって知能を実現しようとすることは、この事実を無視しているように思えます。それは、数十億のトレーニングサンプルがあるため、囲碁の石が何であるかを理解する必要がないということと同じです。人間の知性が行うことを考えてみてください。私たちはLIGOを建設し、宇宙の向こう側からの重力波を検出しました。私たちはどのようにしてそれを実現したのでしょうか？知識と推論に基づいています。LIGOを建設する前に、私たちはどこからトレーニングサンプルを収集したのでしょうか？明らかに、先人たちはいくつかのことを理解しており、感覚的な経験を含め、英語や数学などの表現的な言語を使ってそれを記録しました。私たちはそこから学び、宇宙の動作原理を理解し、それに基づいて推論、エンジニアリング、設計などを行い、宇宙の向こう側のブラックホールの衝突を観測することができました。

もちろん、大量のデータを利用して知能を実現することは可能です。多くのことが可能です。人類よりも知能の高いFortranプログラムを進化させることも可能です。しかし、私たちは知識と推論を理解するために2000年以上を費やし、多くの知識と推論に基づく優れた技術を開発し、それらの技術に基づいて数千もの有用なアプリケーションを開発してきました。今、あなたが知能に興味を持っているのに、知識や推論に興味がないなら、私は何も言えません。

終わりに

今回の翻訳と内容の査読は、やく半日でできました。もし完全に自分でやろうとしたら、少なくとも1-2日はかかるでしょう。

翻訳の品質も決して悪くなく、誤訳が数カ所あるものの、全体的に結構理解しやすい文章になっているのではないかと（少なくともaws/gcpのドキュメントよりはだいぶマシ）。これを見て正直、翻訳・通訳の仕事はなくなり、近いうちに言語の壁も破れるのではないかと思いました。

ただ、ラッセル教授のたとえにあったように、ChatGPTには「20%のチャンス」でアホらしい間違いをする問題が存在するし、「推論」という人間の知能に非常にコアな能力が持っているとは言えないかもしれません。現時点でChatGPTが出してくれている「答え」に対して、人間はそれを鵜呑みすることがまだまだできないでしょう。

今は焦りと不安よりも、このツールをどううまく利用できるのかを考えた方が良いでしょう。自分達の思考能力が奪われない前提で、効率を上げるツールとしては非常に有用だと考えています。今後の動きも注目したいですね。

ではでは。

脚注

masterであっているが、原文は「大師」となっていて、泰斗、権威との訳でより正確な気がする ↩︎
「アンカーを作成する」、若干意味不明になっていますが、要するに事実に基づくこと。おそらく背景として、現在のChatGPTにはまだ「平気に嘘をつく」との問題があるのではないかと。 ↩︎
真の知性というのは人間らしい知性のあるモデルを指している。 ↩︎
出版社側は機械の心という組織名を使います ↩︎
大規模言語モデル、このような専門用語があまり精確になっていないのが不思議 ↩︎
ここは不自然や訳になっている。浮かぶ答えは「わからない」、その次に「作った人を含めて誰も原理が理解してないからです」との順番だと理解しやすいでしょう ↩︎
誤訳。どの意味で・どの角度から見て、答えを理解しているのか。 ↩︎
言えるのですか、の方が自然かと ↩︎
割と共感できるところで、leetcodeで解答を出してもらうと、完全にコンパイラーに通らないものとか、存在しないメソッドを使うとかがしばしばある ↩︎
賢く見えるのはxxxからです。前の「賢く見えるのは」がなぜか抜けている ↩︎
誤訳。答えだと思いません。 ↩︎
ボトルネックのこと。このような箇所を見るとやはり人間のような「理解」とは違うと思いますね ↩︎
ここは人々ではなく、人だけで十分。別のグループの人々→別の人たち。 ↩︎
これは個人的に一番好きなハイライトです。ただ機械的かどうか、それは1/0の問題ではなく、どこまでの割合との問題もあります。例えば、このインタビューの翻訳自体は本来自分がやるつもりだった。時間をかけて思考を繰り返して理解を深められる。それはもっともだが、自分にとって翻訳のスキルの向上が必要なのか？翻訳作業は多少機械的な部分もあるのでは？一度母語で読んで理解をしているにもかかわらず、もう一度訳して繰り返す必要があるのか？週末をこれに潰して良いのか？など、ROIの観点から考慮して、先にAIに任せて、自分が査読した方がよいのではと思いました。 ↩︎
結構誤訳。人工知能の実現によって、人々がやりたいことをなんでもできるようになることを味わせてくれた。 ↩︎
AIについて完全に門外漢で、この辺りを読んで驚愕と感じつつ、興味深いと思いました。目的を達成するためにある手段を見出したが、自然にその手段が目的に変わってくるパターンではないかなと。よく新しく学んだプログラミング言語を使いたいから、本当に適しているかどうかを考慮せずに使っちゃうことがありますね。こういった「コミュニティの情勢」の中でも、独立かつ冷静に判断できるのは本当に大事で価値のある能力だと信じています。 ↩︎
このような単位のことなぜかよく間違います。原文は「兆ワット」＝10**12でした。前にAWSの料金試算をやってもらった時も、GBとKBを完全に間違ってとんでもない金額になったことが。 ↩︎
この辺り電子回路とかよく出てきてわけわからないかもしれない。機械には1/0しかわからないので、論理回路からアセンブル言語、コンパイラー、高級言語といった流れで、より人間の言葉に近づいてきています。高級言語が使えるようになると、アセンブルをやりたいと言い出すエンジニアがほとんどいなくなる感じです。かつてCSのクラッシュコースで、CSの本質は抽象化(abstraction)だと、この印象深かった言葉を思いだせさてくれます。 ↩︎
論理的推論のいくつかのパターン、帰納(induction)、演繹(deduction)、アブダクション(abduction)があります。ラッセル教授がいったいるのは、ルールと性質を理解しているのではれば、そのルールと性質から無限に演繹することが可能になる。ただ理解なしに、単純に画像レベルで「帰納」するのであれば、結局そのままに止まってしまいます。人間にとってこの三つの推論パターンが不可欠で、例えばエンジニアの仕事で考えると、モデルの構築は帰納、モデルが各シナリオでどう適応していくのかが演繹、デバッグするときにエラーメッセージから「当てずっぽう」しながら問題の原因を見つけるのはアブダクション。これらの推論パターンが全部できているのか、少なくとも今のChatGPTからでは言いにくいかもしれない。そもそもブラックボックスの中で、人間らしく推論が行なわれているかどうか、それが理解されていないでしょう。 ↩︎

GitHubで編集を提案

Discussion

ログインするとコメントできます