各社生成AIはユーザデータを学習に利用するのか調べてみた
生成 AI は「ユーザの入力を学習に使う」ものが多いです。
無料なら仕方あるまいと思いますが、有料でも「絶対に学習に使いたい!」という強い意志を感じるものもあり、
業務では使いづらい場合もあります。勘弁して欲しいものです。
各社生成 AI サービスがどうなっているのか調べてみます。
このドキュメントは 2024/02/14 現在の情報で、今後は変わる可能性があります。
OpenAI(ChatGPT)
他に解説記事がたくさんあるので詳細はそちらに任せます。
「有料だろうがなんとしても学習に使いたい!」 という強い意志を感じる内容になっています。
Web/App
3.5、 4 共にデフォルトで学習します。
設定から「チャット履歴とトレーニング」をオフにすることで学習されないようにできます。
チャットの履歴とトレーニングは全く別の話なのだが、この不便を改善したければ学習データとして利用させろ、ということでしょうか。
一時期、学習しない設定があったことがあるようですが消えました。
20240626
データコントロール > すべての人のためにモデルを改善する
という項目が現れました。また消えないといいんですが。
API
オプトイン(事前に許可)しない限り使用されません。
オプトインは Google フォームからやるらしいですが、業務利用であえてオプトインする必要はあるまい。
Google(Gemini)
Next Tokyo 2023 にいってきたのですが、「OpenAI とは違ってユーザデータを学習しないから安心」と宣言していましたのもあり、お金を払えば学習には使わない、という方針に感じました。
Google は Gemini、VertexAI、PaLM、text-bison、AI Studio など似たようなサービスで異なる名前があり、とても混乱します…。過渡期の痛みだと良いのですが、何とかしてほしいものです。
Web/App
無料で利用でき、学習に利用します。
「Gemini アプリ」について記載があります。
そもそも Gemini アプリとは、については以下に記載があった。
The Gemini Apps referred to in the Gemini Apps Privacy Notice and the Gemini Apps Privacy Hub include:
The Gemini web app at gemini.google.com
The Gemini mobile apps, which includes:
The Gemini app, including as your mobile assistant, on Android in specific locations
The Gemini tab in the Google app on iOS in specific locations
ざっくりいうと以下のとおりです。
- gemini.google.com の Gemini ウェブアプリ
- Gemini モバイルアプリ
ユーザデータは以下のように使用します。
Google は、Gemini アプリとの会話、関連プロダクトの使用に関する情報、ユーザーの現在地に関する情報、およびユーザーのフィードバックを収集します。Google ではこのデータをプライバシー ポリシーに従って使用し、Google のプロダクト、サービス、機械学習技術(Google Cloud など、Google の企業向けプロダクトも含む)の提供、向上、開発に使用します。
(中略)
会話には機密情報を入力しないでください。また、レビュアーに見られたくないデータや、Google のプロダクト、サービス、機械学習技術の向上に使用されたくないデータも入力しないでください。
API
VertexAI
GCP から有料で使用し、学習に利用されません。
By default, Google Cloud doesn't use Customer Data to train its Foundation Models.
Foundation Models は gemini や text-bison などの学習済みモデルのこと。
AI for Developers(Google AI Studio?)
2024/02/14 現在、無料で利用でき学習に利用されます。
有料版の Pay-as-you-go は学習に利用されませんが今は利用できません。
ここから API key を発行して使います。
2024/02 現在は無料で使用でき、「プロダクトの改善に使用される入出力データ => はい」の記載があります。
有料版の Pay-as-you-go は上記の項目がいいえになっていますが、現在は使えません。
以下にも記載がある。
To help with quality and improve our products, human reviewers may read, annotate, and process your API input and output. Google takes steps to protect your privacy as part of this process. This includes disconnecting this data from your Google Account and API key before reviewers see or annotate it. Do not submit sensitive, confidential, or personal information to the Services.
Google only uses data that you import or upload to the Services to tune models for that express purpose. Tuning data may be retained in connection with your tuned models for purposes of re-tuning when supported models change. When you delete a tuned model, the related tuning data is also deleted.
曖昧な表現でゴニョゴニョ言ってますが、「学習に使うから機密情報を入力するな」と言っているようですね。
Microsoft(Azure)
あまり詳しくない。誤りがあったら訂正するのでご指摘ください。
OpenAI との兼ね合いもあり、似た方針に見えます。
Web/App
Copilot in Bing
無料のものは恐らく学習に利用されます。
365 ユーザは商用データ保護機能が無料で使えるとのこと。
Bing の Copilot はプライバシーを念頭に置いて構築されているため、個人データは必要な場合にのみ収集および使用され、必要以上に保持されません。
API
Azure OpenAI Service
Azure OpenAI では、モデルの再トレーニングに顧客データは使用されません。
Oracle(OCI)
あまり詳しくない。誤りがあったら訂正するのでご指摘ください。
Web/App
なさそう。
API
学習されない。
セキュリティとプライバシ
お客様のデータが大規模言語モデル・プロバイダーと共有されたり、他のお客様に見られることはありません。
明瞭に書かれてていいですね。
Cloude
オプトインしなければ学習に利用されない様子。
まとめ
ChatGPTの有料なのに学習に使っちゃうの!? というのは正直驚きです。
それでも使わずにはいられないインパクトがあり、非常に悩ましい。
各社APIでの利用は学習されない物が多いですね。
次に気になるのは「学習された場合、どうなってしまうのか」です。検証が難しい事項ではありますが、仕込んでまた記事にしたいと思います。
Discussion
大事な記事、ありがとうございます。
Google AI Studioは、Gemini API自体がデータ流用する想定になっているものということなんですね。有料版にすれば流用されなくなるけれど、今その利用モードはONにできないと。
コメントありがとうございます。
GoogleはGeminiとかVertexAIとかPaLMとかDuetとかいてすごくややこしいんですが、「有料なら秘密は守る」という方針に感じました。
今現在、学習に利用させずGeminiを使いたければ、VertexAIからモデルをGemini Proを選択するとよいかと思います。