[aipref]IETF AI Preferences Working Groupとは何か(Draft)
Intro
於 バンコク・マリオット・マーキス・クイーンズパークにてIETF 122が開催され、AI Preferences Working Group設立後初めてミーティングが行われました。
AI Preferences Working Groupは"AI"(大規模言語モデル)が既存のインターネット・インフラとどのように相互作用するかを制御するために使用されるかもしれないメカニズムについて議論するためのもので、当初は、robots.txt(RFC 9309)のようなメカニズムを通じて、ウェブサイトが"AI spiders"に対してどのように優先順位を示すことができるかに焦点が当てられていますが、議論はそのトピックに限定されるものではありませんでした。
今回はミーティングで使用されたスライドをもとに、AI Preferences Working Groupがどういったものか、どのような内容を議論したのか確認しながら紹介していきたいと思います。
Charter overview
ワーキンググループでは以下の成果物を目標としています。
AI関連のプリファレンスを表現するための語彙の開発
この語彙は、コンテンツとそれらのプリファレンスがどのように関連付けられるかに依存しないものであるべきです。
これは、AIがコンテンツを利用する際の指示や制約を標準化するための基礎となる要素です。
IETFで定義されたプロトコルとフォーマットにおいて、それらのプリファレンスをコンテンツに関連付ける手段の提供
これには、例えば、HTTPレスポンスヘッダーフィールドや、Robots Exclusion Protocol
(RFC 9309)のようなWell-Known URI(RFC 8615)の使用が含まれますが、これらに限定されません。
この点は、実際にプリファレンスをインターネット上で流通させ、適用するための具体的な方法を定めることを示しています。
複数のプリファレンスを調整するための標準的な方法の確立
異なる場所(例えば、場所に基づくプリファレンス、埋め込みプリファレンス、外部リポジトリのプリファレンスなど)に存在する可能性のある複数のプリファレンスが矛盾する場合に、どのように解決するかを定義することは、このワーキンググループの重要な課題の一つです。
なお、以下内容はCharterの範囲外(Out of scope)としています。
- プリファレンスの技術的な実施
- クライアントやクローラーを認証または認可するためのアプリケーション層プロトコルの開発
- コンテンツに関連するプリファレンスのレジストリの設立
- AIトレーニングのための監査およびその他の透明性対策
Discussion
実際に行った質問内容を確認していきます。
語彙の範囲 (Vocabulary Scope)
これは、AI関連のプリファレンスを表現するために使用される基本的な用語(語彙)をどのように定義すべきかという問いかけです。
ワークショップでの議論を踏まえ、初期の語彙はシンプルであるべきという意見が強く示されています。
採用者による混乱を避け、将来的な拡張性を確保するためです。
場所による添付 (Attachment by Location)
これは、AI関連のプリファレンスを特定の場所(例えばURL)に関連付けるメカニズムをどのように定義すべきかという問いかけです。
robots.txtの拡張が候補の一つとして挙げられており、それを利用する上での技術的または運用上の欠点があれば早期に提起するよう促しています。
プリファレンスをコンテンツに関連付ける基本的な方法の一つを議論するためのものです。
オプトインとオプトアウト (Opt-in and Opt-out)
これは、AIによるコンテンツ利用に関するプリファレンスのメカニズムが、オプトイン(許可)ベースであるべきか、オプトアウト(拒否)ベースであるべきかという問いかけです。
ワーキンググループのChairとしては、法的枠組みがどちらの方向に向かうかを決定することはできないとしつつも、両方のケースに対応できるように設計することが賢明であると提案しています。
これは、異なる法的要件や慣行に対応できる柔軟なメカニズムを設計するための議論を促すものです。
その他の添付メカニズム (Other attachment mechanisms)
場所による添付だけでなく、IETFで管理されるプロトコルやフォーマット(例えばHTTPヘッダー、RFC 8288のようなリンクリレーション、JSONなど)に埋め込まれたメタデータを通じてプリファレンスを関連付ける方法を検討するよう求めています。
これは、より多様な方法でプリファレンスをコンテンツに付与するための可能性を探るものです。
他の組織との連携 (Working with other organizations)
AI関連のプリファレンスが適用される可能性のある他のフォーマット(HTML、JPEG、MPEGなど)を管理する組織との連携について議論する必要があるとしています。
新しいリエゾン関係を確立する必要があるかどうかを早期に検討することを推奨しています。
これは、IETFの枠組みだけでなく、より広範なエコシステムにおける相互運用性を確保するための重要な議論です。
プリファレンスの組み合わせ (Combining Preferences)
これは、複数の異なる場所や形式で表現されたプリファレンス(例えば、場所ベース、埋め込み、外部リポジトリ)をどのように調整し、統合するかという問いかけです。
異なるプリファレンスが競合する場合の解決策や、類似性に基づいて関連付けられたプリファレンスの扱いなどが含まれる可能性があります。
この課題は、私たちが以前の会話で触れた、AI関連のプリファレンスをコンテンツに適用する際の複雑さを扱う上で非常に重要となります。
ワーキンググループは、これらの異なる情報源からのプリファレンスをどのように一貫性のある形で解釈し、適用するための標準的な方法を定義する必要があります。
ライセンススキーム (Licensing Schemes)
これは、特定の利用を許可するプリファレンスが、そのスキームへの参加(おそらく対価を含む)を条件とするようなライセンスの仕組みを将来的に検討する可能性について触れています。
現時点での憲章の範囲には含まれていませんが、将来的な拡張性を考慮し、そのような仕組みを可能にするような設計が望ましいとされています。
この議論は、単にプリファレンスを表現するだけでなく、そのプリファレンスに基づく利用条件や権利関係をどのように管理できるかという、より高度な側面を探るものです。
ワーキンググループは、この可能性を念頭に置きながら、現在の標準化作業を進めることが推奨されています。
政策立案者への事項 (Matters for Policymakers)
ここでは、ワーキンググループの技術的な成果物が、この分野における唯一の解決策ではなく、政策立案者が法的な枠組みを定める必要があることが強調されています。
ワーキンググループの成果物が何を提供し、特に何を提供しないのか(例えば、技術的な強制力は現時点では含まれない)を明確に伝えることが、政策と技術の連携にとって重要であると指摘されています。
この議論は、ワーキンググループの活動が技術的な標準化に留まらず、より広範な社会的な、特に法的な枠組みとの相互作用を考慮する必要があることを示唆しています。
成果物の限界を明確にすることで、政策立案者が現実的な期待を持ち、効果的な法整備を進めるのを助けることが目的です。
したがって、ワーキンググループが提供するメカニズムの限界と、それらが政策措置とどのように相互作用する可能性があるかを文書化することが、期待を管理し、政策と技術の連携を確実にする上で役立つと述べられています。
Candidate drafts
現在公開されているDraftを確認してみましょう。
Robots Exclusion Protocol User Agent Purpose Extension
このドラフトは、Robots Exclusion Protocol(REP)を拡張し、自動クライアントをそのアクセス目的に基づいてターゲティングするための新しいルール「User-Agent-Purpose」を定義しています。
これにより、ウェブサイトの所有者は、特定の目的(IANAに登録されたトークンで示される)を持つ自動クライアントに対して、より細やかなアクセス制御が可能になります。
例えば、特定の情報収集目的のボットのみをブロックしたり許可したりすることができます。
このルールは、既存の「User-Agent」と同様に、ルールグループの開始として機能します。
Robots Exclusion Protocol Extension for URI Level Control
このドラフトもRobots Exclusion Protocol(REP)を拡張するもので、URIレベルでの追加の制御を目的としています。
具体的には、1996年から広く採用されているアプリケーションレベルのレスポンスヘッダー(以前は実験的な "X-" プレフィックス付きだったもの)とHTMLのメタタグを通じて、クローラーによるデータの利用方法を制御する仕組みを規定します。
また、これまで不可能だった複数のヘッダーの組み合わせについても定義しています。
提案されているコントロールルールには、検索エンジンのインデックス登録を拒否する「noindex」や、スニペット表示を拒否する「nosnippet」などがあります。
これらのルールは、特定のプロダクトトークンまたはグローバルな "*" に対して適用できます。
Vocabulary for Expressing Content Preferences for AI Training
このドラフトは、AIトレーニングにおけるコンテンツの利用に関するプリファレンスを表現するための語彙(Vocabulary)を提案しています。
この語彙は、HTTPヘッダー、REPの拡張、HTMLメタタグ、Well-Known URI、埋め込みメタデータなど、多様なメカニズムを通じて伝達されることを想定しています。
このドラフトは、コンテンツ所有者がAIトレーニングにおけるコンテンツの利用をより細かく管理するための基盤を提供しようとしています。
Term | Description |
---|---|
allow_training | コンテンツがAIトレーニングに使用できるかどうかを示す基本的な指標 |
purpose | 訓練における許容される用途(例:ファインチューニング、分類、要約など)を定義 |
effective_date | 許可が有効になる開始日 |
expiration_date | 許可が適用されなくなる日付 |
scope | 設定がグローバルに適用されるのか、特定のコンテンツに適用されるのか、または条件付きで適用されるのかを定義 |
mime_type | 設定が適用されるコンテンツの種類を指定 |
allow_derivatives | コンテンツを元にした派生作品(要約、言い換えなど)が許可されているかを示す |
derivative_type | allow_derivativesがtrueの場合、許可される派生作品の種類を指定 |
retention_period | 訓練後など、コンテンツを保持できる期間を指定 |
preference_persistence | 設定が派生データにも適用される必要があるか(必須または任意)を示す |
precedence | 他の設定と競合した場合の優先順位を決定 |
geo_limitations | 許可が適用される地理的な範囲(国・地域)を指定 |
Short Usage Preference Strings for Automated Processing
このドラフトは、コンテンツ作成者やその他の関係者が、自動システムによるコンテンツの利用方法に関するプリファレンスを表明するための非常にシンプルなフォーマットを定義しています。
このフォーマットは、ラベル=値 の形式のディレクティブをカンマ区切りで並べた文字列で、y(許可)または n(拒否)の値を取ります。
このドラフトは、REPとHTTPヘッダーを拡張して、これらのプリファレンスを伝達する手段も定義しています。
Label | Definition |
---|---|
tdm | TDM(Text and Data Mining)は、コンテンツから情報を抽出するあらゆる自動化プロセス |
ai | AIは、TDMの一種であり、機械学習システム(またはAI)の訓練または使用 |
genai | 生成AIは、AIの一種であり、コンテンツを生成できる機械学習(またはAI)の訓練または使用 |
search | 検索は、TDMの一種であり、検索インデックスの生成または検索アプリケーションでの使用 |
Outro
現行の著作権法において検索情報を扱う際、robots.txtやHTMLメタタグで情報の収集を禁止する方法は送信元識別符号検索結果提供を適正に行うために必要な措置に該当しますが[1]、AI関連のプリファレンスが存在していないため、無断学習やDDoSに関する問題において今も綱引きが続いています。
上記Anubisやai.robots.txtといったAIスパイダー対策のツールも登場しつつある昨今ですが、AI Preferences Working Groupが取り組んでいる内容に関して今後も注目したいところです。
Session
Co-chairのmnot-sanが体調不良のため出席できず、質問に回答しているSuresh Krishnan-sanの隣でtpauly-sanが代理出席しています。
Discussion