ChatGPT Plusの browsingモードとdefaultモードの違い(2023/05/17)
概要
ChatGPT Plus に browsingモードが搭載されたのでdefaultモードと何が違うのか調べてみた。
中身としては
- どのように使い分ければいいのか
- それぞれのメリットデメリット
- どういう仕組みか
など。
注意
この記事はChatGPTと部分的にbrowsingモードを利用して書いている
ざっくりとした理屈は正しそうだが、割と嘘つかれている気もする。
使い倒してみて、状況証拠的にどういう動きをするか確認していった方がいい。
2023/5/17日現在のbeta版での話である。
先にまとめ
- defaultモードとbrowsingモードでは、defaultモードの方が文章が読みやすく、browsingモードの方が文章が読みにくい気がする。また、browsingモードでは、自動browsingしたとしても回答に間違いも多数見られるため、個人的には現状はdefaultモードを利用し、最新情報はドキュメントなど参照した方がよさそう。
- 1チャットにおける1セッションで一時保存されるトークン数は、過去データとbrowsingしたデータの両方。GPTの種類によって上限トークン数は変動。
詳細
browsingモードは、defaultモードについて
ChatGPT PlusのBrowsing機能について教えてください。
ChatGPT Plusは、ChatGPTのアップグレード版で、ブラウジング機能を提供します。この機能により、ChatGPTはインターネットを「ブラウズ」し、ウェブページの情報を検索して引用することができます。これにより、ChatGPTはリアルタイムの情報を提供したり、最新のデータや出来事について語ったりする能力が向上します。例えば、最新のニュース、天気、株価、スポーツのスコアなどの情報を提供することが可能です。
ChatGPTがブラウズする際の動作は、人間がウェブブラウザを操作するのと似ています。具体的な操作としては、ウェブ検索の実行、検索結果の表示、特定のウェブページの選択と開閲、ウェブページ内でのスクロール、そしてウェブページからの情報の引用などが含まれます。
なお、プライバシーの観点から、ChatGPTはユーザーのウェブブラウジングセッションの情報を保存しない設計になっています。また、ChatGPTはウェブブラウジングツールを使っているときにはユーザーにその旨を通知します。これにより、ユーザーはChatGPTがインターネット上の情報にアクセスしていることを理解することができます。
ブラウジング機能を持つChatGPT Plusは、情報の検索や探索、研究の支援、学習の補助など、さまざまなタスクに役立つよう設計されています。
defaultの機能とbrowsingの機能で、defaultの機能を使った方がいい場合はありますか?
はい、確かに、ChatGPTのdefaultモードを使用するべき状況はいくつかあります。以下にそのようなケースの一部を挙げてみます:
-
プライバシーに配慮する場合:ChatGPT Plusのブラウジングモードは、ユーザーの指示に基づいてウェブ検索を行いますが、プライバシーに特に敏感な場合や、インターネット上の情報にアクセスすることを避けたい場合は、defaultモードを使用することが推奨されます。
-
速度と効率性が重要な場合:ブラウジングモードではウェブ検索を行い、適切な情報を見つけるためにページを開くなどの追加のステップが必要なため、応答に時間がかかることがあります。ですので、迅速な回答が求められる場合や、一般的な情報や既知の事実について質問する場合は、defaultモードが適しているでしょう。
-
ネット接続が不安定または利用できない場合:ブラウジングモードはインターネット接続を必要としますが、接続が不安定または利用できない場合は、defaultモードが適しています。
-
問題が具体的で、既知の情報に基づいている場合:具体的な質問や既知の情報に基づいている問題に対しては、defaultモードで十分に対応できます。これには、一般的な知識や事実、または一般的な推論能力が必要な問題が含まれます。
これらのシナリオは、defaultモードが適している可能性が高いケースの一部を示していますが、ユーザーの具体的なニーズや状況により、どちらのモードを使用するかは変わるかもしれません。
defaultモードは2021年9月のデータまで、browsingモードは今日のデータまでから回答を生成するのですか?
基本的にはbrowsingモードを利用する方がいいですか?
はい、あなたの理解は正確です。defaultモードのChatGPTは、2021年9月までのデータを元に学習しています。そのため、それ以降の情報については知らないという制限があります。一方、browsingモードを利用することで、ChatGPTはリアルタイムの情報をウェブから取得し、最新の情報に基づく回答を提供することができます。
どちらのモードを利用すべきかは、あなたのニーズによります。
-
もし具体的な質問があり、それが一般的な知識や2021年9月までの情報に基づいている場合、defaultモードは十分に対応できます。このモードは迅速な回答を提供し、インターネット接続が不要です。
-
しかし、最新の情報が必要な場合、特定のWeb上の情報を検索したい場合、またはWebからの情報を引用して回答を補完したい場合は、browsingモードが最適です。
したがって、どちらのモードが「より良い」かは、あなたの質問や目的によると言えます。
browsingモードでチャットを始めても、browsingが走らなければそれは機能的にはdefaultモードを利用しているのと同じですよね?
はい、その理解で正しいです。ChatGPTのbrowsingモードは、ユーザーの質問が最新の情報を必要とするか、あるいはWeb上の情報を明示的に要求する場合にブラウジングを行います。もしbrowsingが発生しなければ、それは基本的にdefaultモードと同じと言えます。その場合、ChatGPTは訓練データ(2021年9月までの情報)を基に回答を生成します。
プログラミングの質問に関してはbrowsingモードの方がよかったりしますか?
プログラミングに関する質問の場合、その質問がどの程度具体的か、またはそれが最新のテクノロジーに関連しているかによります。
-
一般的なプログラミングの質問:基本的なプログラミングの原理、アルゴリズム、既存のプログラミング言語(Python、Java、JavaScriptなど)の構文など、一般的なプログラミングに関する質問については、defaultモードが十分なことが多いです。
-
最新のテクノロジーやライブラリに関する質問:2021年9月以降に公開または更新されたライブラリ、フレームワーク、またはAPIについての質問の場合、browsingモードが有用です。これは、ChatGPTが最新のドキュメンテーションを検索し、最新の情報に基づいた回答を提供できるからです。
-
特定のエラーメッセージやバグについて:具体的なエラーメッセージやバグについての質問の場合、browsingモードを使用してスタックオーバーフローなどの開発者コミュニティで同様の問題についての議論を探すことが有益であることがあります。
したがって、プログラミングの質問に対する最適なモードは、質問の内容やその具体性によります。
一般的なプログラミングの質問であっても、browsingモードで質問しても特にデメリットはないですか?
browsingモードを使用する主なデメリットは、応答時間が長くなる可能性があることです。browsingモードでは、ChatGPTはウェブ検索を行い、適切な情報を見つけるためにページを開くなどの追加のステップが必要となります。そのため、一般的なプログラミングの質問に対しては、defaultモードが迅速な回答を提供することが多いです。
また、browsingモードを使用すると、インターネット上の情報を取得するため、その情報の品質や信頼性が必ずしも保証されないという点に注意が必要です。一方、defaultモードでは、ChatGPTは大量の信頼性のあるデータソースを元に学習しています。
それでも、一般的なプログラミングの質問に対しても、browsingモードを使用して問題を解決するための新たな視点やアプローチを探すことは有用な場合があります。最終的には、あなたの質問の性質や、応答速度と情報の新鮮度のどちらを優先したいかによります。
では、defaultモードは学習量が多く、browsingモードは学習量が少ないと言えます?browsingモードではどのくらいのブラウジングをしてどのくらいのデータから文章を生成するのでしょうか?
実際には、defaultモードとbrowsingモードの間で学習量が異なるわけではありません。両モードとも同じ基本的なモデル(GPT-3またはGPT-4)をベースにしており、それぞれ数十億のウェブページ、書籍、その他のテキストから学習されています。この学習は2021年9月までのデータに基づいています。
一方で、browsingモードはその基本的なモデルに加えて、ブラウジングのシミュレーションデータを元に追加で学習されています。このブラウジングのシミュレーションデータは、ウェブページの検索と閲覧、ページからの情報の引用といった一連のアクションを含んでいます。しかし、この追加の学習は特定のウェブページや情報をモデルに「覚えさせる」ものではなく、モデルがウェブ検索や情報の引用といったブラウジングの行動をどのように行うべきかを学習させるものです。
ユーザーからの質問や指示に応じて、browsingモードのChatGPTはリアルタイムでウェブを検索し、結果をユーザーに表示します。その後、特定のウェブページを開き、そのページから必要な情報を引用します。しかし、この情報はモデルがその場で閲覧しているだけで、モデルの長期記憶には保存されません。
したがって、browsingモードは「学習量が少ない」というよりは、「リアルタイムの情報にアクセスする能力がある」ことが特徴的と言えます。
ブラウジングのシミュレーションデータについて教えてください
ChatGPTのbrowsingモードは、ウェブブラウジングのシミュレーションデータに基づいて追加の訓練を受けています。このシミュレーションデータは、ウェブページの検索と閲覧、そして必要な情報の引用という一連のアクションを模倣するものです。
具体的には、このシミュレーションデータは、人間がウェブページを検索し、結果を閲覧し、必要な情報を引用する一連の行動を再現するために作成されたものです。これにより、モデルはウェブサイトの検索や情報の引用といったブラウジングの行動をどのように行うべきかを学習します。
ただし、このブラウジングのシミュレーションデータは、モデルが特定のウェブページや情報を「覚えさせる」ものではなく、ウェブブラウジングの一般的なプロセスを学習するためのものです。したがって、browsingモードのChatGPTが提供する情報は、その時点でインターネットに公開されている情報に基づいています。
ということはbrowsingモードは、defaultモードと同一の過去データの学習をベースとして、最新のWebからのデータも追加でその都度短期的に学習し、最終的にそれらを組み合わせて回答するということですよね?
その際のウェブブラウジングのやり方はOpen AIが独自で作ったものであるということですか?
その理解は基本的に正確です。ただし、少し補足を加えさせてください。browsingモードのChatGPTは、リアルタイムでウェブを検索し、その検索結果を閲覧し、必要な情報を引用しますが、これらの情報は「学習」されるわけではありません。つまり、これらの情報はモデルがその場で閲覧しているだけで、モデルの長期記憶には保存されません。したがって、これらの新しい情報はそのセッション内でのみ利用され、セッションが終了するとアクセスできなくなります。
ウェブブラウジングのやり方については、OpenAIが独自に開発した方法を使用しています。browsingモードのChatGPTは、ウェブページの検索と閲覧、ページからの情報の引用といった一連のアクションを模倣するための学習データを使用して追加で訓練されています。この学習データは、大量のウェブページとそのページからの情報引用を模倣する一連のアクションを含んでいます。この訓練により、ChatGPTはリアルタイムでウェブ検索を行い、適切な情報を見つけ出す能力を獲得しています。
では原則として、1つのchatに入り、質問や回答生成を繰り返し、その後そのchatから抜けたときに、セッションが終わるという認識で正しいですか?
はい、その認識は正確です。ChatGPTとの一連の対話(質問と回答のやり取り)が1つのセッションを形成します。そのセッションは、そのチャットのコンテキスト(つまり、過去の質問と回答)と、ブラウジングモードが有効な場合のブラウジング情報に依存します。
あるチャットから抜ける(たとえば、新しいチャットを開始する、ブラウザウィンドウを閉じる、チャットを切り替えるなど)と、そのチャットのセッションは終了します。新しいセッションが開始されると、前のセッションのブラウジング情報は利用されません。新しいセッションでは、必要な情報は新たにブラウジングを通じて取得されます。
セッションとブラウジングトークンについて
1セッションについて何ページくらいのウェブページを読み込むのでしょうか?
ChatGPTのbrowsingモードが一つのセッション中に読み込むウェブページ数は、ユーザーの質問や指示によります。ユーザーが特定の情報を求めている場合や、特定のウェブサイトを参照したいと要求した場合など、ユーザーの要求に応じて検索結果を表示し、関連するウェブページを開きます。
そのため、一つのセッション中に読み込むウェブページ数は固定されていません。しかし、ChatGPTは各ウェブページからの情報を効率的に引用し、それをユーザーの質問に対する回答に組み込むことで、必要な情報を速やかに提供するよう努めます。
browsingモードでは、1回の質問に対してどのくらいの文字数をブラウジングしてきますか?
ブラウジングモードのChatGPTは、一度にブラウジングできるテキストの量に制限があります。具体的には、モデルが一度に「見る」ことができるテキストは、質問、以前の応答、そしてブラウジングから取得したテキストを合わせて約4096トークン(これは約2000~3000単語に相当します)です。この制限は、一つのチャットメッセージだけでなく、ブラウジングセッション全体に適用されます。
したがって、一つの質問に対するブラウジングの量は、その制限内であれば任意に調整されます。ただし、その制限を超えた場合、モデルは新しい情報を取り込むために古い情報を「忘れる」必要があります。例えば、新たなウェブページを開くためには、前のウェブページの一部または全部を「忘れる」必要があります。
ではセッションでの質疑応答が長引いた場合は、適宜古いデータの一部や全部を忘れながら、新しいブラウジングを試すということですか?その際どのようなデータが忘れられるかなどは、ChatGPTのアルゴリズムで決められると考えていいですか?
はい、その通りです。ChatGPTのブラウジングモードは、新しい情報を取り込むために必要な場合、古い情報を「忘れる」必要があります。これは、モデルが一度に処理できるテキストの量(約4096トークン)に制限があるためです。
そのため、セッションが長く続き、新たなブラウジングが必要となった場合、モデルは新しい情報を取り込むために、古い情報を捨てる必要があります。このプロセスは、主にモデルの設計とアルゴリズムによって決定されます。具体的にどの情報が「忘れられる」かは、モデルがその情報をどの程度重要と評価するか、また新しい情報をどの程度取り込む必要があるかによります。
ただし、このプロセスは完全に自動的であり、ユーザーが直接制御することはできません。また、モデルが特定の情報を「忘れる」かどうかの具体的な基準やルールは、モデル自体が非常に複雑であるため、一般的には容易に理解や予測することはできません。
ブラウジング参照先の指定について
例えば「公式ドキュメントを参考に回答してください」のように質問することはできるのですか?
はい、それは可能です。具体的なウェブサイトやドキュメントを指定することで、ChatGPTのbrowsingモードはそのウェブサイトやドキュメントを検索し、その情報を質問への回答に組み込むことができます。たとえば、「Pythonの公式ドキュメントを参考に、リストの操作方法を教えてください」というような質問をすることができます。
ただし、特定のウェブサイトやドキュメントが見つからない、あるいはその情報が読み取れない場合(例えば、ページが非公開である場合、特殊なフォーマットである場合など)は、ChatGPTはその情報を参照することができません。そのような場合でも、ChatGPTはその他の信頼性のあるウェブサイトから情報を検索し、質問への最善の回答を提供しようとします。
「公式ドキュメントを参考に回答してください、URLはこちらです。」のようにURL指定することもできますか?
その場合ブラウジングするwebページは指定した場所に限定されますか?それとも他のページもブラウジングして回答を生成しますか?
はい、具体的なURLを指定して、そのウェブページを参照するようにChatGPTに指示することができます。その場合、ChatGPTは指定されたURLを開き、そのページの情報を質問への回答に組み込みます。
ただし、指定されたURLのウェブページだけで必要な情報が全て得られない場合、またはユーザーが追加の情報を求める場合などは、ChatGPTは他のウェブページも検索・閲覧することがあります。それはユーザーの質問や指示によります。具体的な要求がない限り、ChatGPTは指定されたURLのウェブページから始めて、必要に応じて他の情報源を探すことができます。
なお、ChatGPTが開くことができるウェブページは公開されている情報に限られ、一部のウェブサイトやコンテンツ(例えば、パスワードで保護されているページや特殊なフォーマットのドキュメントなど)は開くことができないことに注意してください。
browsingモードでは、ブラウジングしているというのを表すUIがchagGPT上に現れることがありますが、このUIが現れない場合はブラウジングしていないと判断できますか?それともバックグラウンドでブラウジングしていたりしますか?
もしブラウジングしていないとしたら、そのときの回答は2021/09時点までの情報で生成されていますか?
OpenAIの公式サイトを参考にして回答してください。
ChatGPTのbrowsingモードは、Webから情報を取得するためにBing search APIを使用します。このプラグインは、ChatGPTのブラウジング活動を他のインフラストラクチャから分離するために独立したサービス内で動作します1。UIはChatGPTが訪問したウェブサイトを表示し、その情報源を引用します。これにより、ユーザーはモデルの回答の正確さを確認し、コンテンツ作成者に対してクレジットを与えることが可能になります2。
ChatGPTがリンクを受け取ると、その活動とサイトを通じた旅行をユーザーが見ることができるドロップダウンメニューを開きます3。したがって、ChatGPTがブラウジングを行っている場合、その活動はユーザーに対して表示されます。もしブラウジングのUIが表示されていない場合、それはChatGPTがブラウジングを行っていないことを示していると理解できます。
もしブラウジングしていないとしたら、そのときの回答は2021/09時点までの情報で生成されています。これは、ChatGPTのトレーニングデータがこの時点までのものであるためです。
所感
今のところあんまし使えん気がする。
今日の地域の最高気温などを聞いても回答が出てこない。
Pythonの最新バージョンを聞いて公式サイトをクロールしてきても回答が間違っている。
最新のもので答えがあるものはググった方が早い。
browsingモードを動かすと、参照先をクロールするのに結構時間がかかる。
browsingするように誘導してあげないとしてくれない。
browsingした場合はソース元のリンクも教えてくれるので、ソースを確認することができる。
これは便利だけどググるのとそんな変わらんような。
ただ、どのページソースを参照すれば欲しい一次情報が得られるか、などは自動でクロールしてもらって場所だけ教えてもらった方が効率がいいかもしれない。
より正確な回答を得るには、もう少しプロンプトの練習をすべきと思われる。
Discussion