📌

IBIS:AIモデルのためのブロックチェーン基盤データ来歴と著作権管理 ~トレーニングデータの正当性を証明する新しいフレームワーク~

に公開

IBIS:AIモデルのためのブロックチェーン基盤データ来歴と著作権管理 ~トレーニングデータの正当性を証明する新しいフレームワーク~

この記事は以下の論文を元に書かれています。
https://arxiv.org/abs/2404.06077

TL;DR

  • AIモデルのトレーニングで使用されるデータの著作権や来歴を追跡するために、ブロックチェーンを活用した「IBIS(アイビス)」というフレームワークが提案されている
  • IBISは、データセット、ライセンス、モデルのオンチェーンレジストリと、マルチパーティ署名サービスを統合し、AI開発者と著作権者間の透明性のある協力関係を実現する
  • Damlスマートコントラクト言語とCantonブロックチェーンプロトコルで実装され、モデル再トレーニング時の継続的なライセンス管理を可能にし、商業利用に耐えるスケーラビリティを持つ

はじめに

大規模言語モデル(LLM)の普及に伴い、AIモデルのトレーニングに使用されるデータの著作権侵害に関する懸念が高まっています。責任あるAI開発を実践し、法的リスクを軽減するためには、コンテンツ作成者やメディア業界など、データ所有者との積極的な協力とライセンス契約の確立が不可欠です。

しかし、AIデータの来歴(プロベナンス)と著作権コンプライアンスを適切に管理することは、特にトレーニングプロセス全体がローカル環境やブラックボックスのクラウドサービス内で行われる場合、容易ではありません。このギャップを埋めるのに適しているのが、改ざん防止された信頼性の高い環境を提供し、真正性、来歴、系統を確立できるブロックチェーン技術です。

本記事では、AIモデルのトレーニングプロセスにおけるデータとモデルの著作権管理、来歴、系統のためのブロックチェーンベースのフレームワーク「IBIS」について解説します。

IBISフレームワークの概要

IBISは、AIモデル所有者(AO)と著作権所有者(CO)という2つの主要な役割を区別し、両者の効率的な協力関係を促進します。

役割

  • AIモデル所有者(AO): AIモデルを作成、トレーニング、維持、商業化する主体。データ分類、ライセンス取得、データセット/モデルメタデータのブロックチェーンへの登録を担当する。
  • 著作権所有者(CO): トレーニングデータの著作権を持つ権利者。ライセンス契約の作成と署名、知的財産権の保護を担当する。

アーキテクチャ

IBISの中核となるアーキテクチャは、以下の6つの主要モジュールで構成されています。

  1. データセットメタデータレジストリ(DMR): AOによってスクレイピングされた各データセットのメタデータをオンチェーンで保持。データセットのCOやソースURLなどの詳細を含む。

  2. ライセンスレジストリ: 対応するCOとAOによって二国間で署名された著作権ライセンスを記録し、データ使用許諾の証拠として機能する。データセットがライセンスされると、データセットのDMRレコードとライセンスレコード間に双方向のリンクが確立される。

  3. モデルメタデータレジストリ(MMR): トレーニング後のモデルのメタデータを保存する。このメタデータには、モデルの識別子、トレーニングデータセット、ソースモデルが含まれる。モデルのトレーニングで使用されたデータセットとソースモデルの永続的な記録を保持し、データの出所を確立する。

  4. マルチパーティ署名サービス(MSS): AOとCO間の通信を調整する。ライセンスリクエストメールの送信やライセンス案の返送などのタスクを処理する。ブロックチェーンのID管理とデジタル署名機能を活用し、著作権ライセンスを確立するための安全なマルチパーティ署名プロセスを保証する。

  5. 契約ライフサイクル管理(CLM): ライセンスを管理するさまざまな外部CLMソフトウェアソリューションと連携するための統一APIを提供する。このアプローチにより、さまざまなCLMソフトウェアソリューションとの互換性が保証され、COの既存のワークフローへの混乱を最小限に抑える。

  6. ライセンス有効性チェック(LVC): スマートコントラクトを使用して、現在の日付、AOの所在地、ライセンスの条件に違反する可能性のあるその他の変数を含む一連の環境変数に基づいてライセンスの有効性を検証する。このフレームワークにより、さまざまなライセンスタイプを対象としたカスタムLVCスマートコントラクトを作成できる。

IBISのワークフロー

IBISのワークフローは、以下の3つの段階に分けられます。

S1: データセットの登録とライセンスチェック

AOは、データスクレイピングプロセス中またはその後に、データを1つ以上のデータセットに分類し、各データセットのメタデータをブロックチェーンに登録します。オンチェーンDMRは、データセットのメタデータレコードを保持します。

DMRに登録されたデータセットは、自動的にトレーニングデータとして適格になるわけではありません。著作権法を遵守するため、各データセットは、ライセンスの存在と有効性のチェックを含む審査段階を経る必要があります。

この段階で、AOはデータセットの属性を抽出し、ブロックチェーン上のライセンスレジストリで対応するライセンスを照会します。ライセンスが見つかると、その有効性はLVCスマートコントラクトを使用してチェックされます。ライセンスチェックに合格したデータセットのみが、モデルトレーニングの対象となります。

S2: ライセンスの作成と二国間署名

ライセンスの存在または有効性チェックに失敗した場合、AOはライセンスを取得するためにライセンスの作成と署名段階を開始する必要があります。

この段階は、AOが対応するCOにライセンスリクエストを送信することから始まります。このリクエストはMSSを介してルーティングされ、リクエストの詳細を含むメールと、必要なアクションを実行するためのCOへのリンクを含むメールが生成されます。

COはCLMを介してAPI呼び出しを行い、ライセンス契約を作成します。さまざまな外部CLMソフトウェアソリューションと連携するコネクタがこのAPIを実装します。

COがCLMソフトウェアを使用してライセンス契約を作成すると、契約はCLMコネクタとAPIを介してフレームワークに返送されます。その後、COとAOはMSSと連携して、二国間で署名されたライセンス契約を生成します。署名されたライセンス契約は、ライセンスレジストリに記録されます。

データセットのDMRレコードも更新され、新しく取得したライセンスを参照し、ライセンス契約の作成と署名段階が完了します。

S3: モデルの登録とCOへの通知

前の2つのステップにより、AOはAIモデルのトレーニングに正当に使用できるライセンスされたデータセットのプールを蓄積できます。データとモデルの出所を確立するには、各モデルのトレーニングで使用されるデータセットとハイパーパラメータの信頼できる記録を維持することが不可欠です。

これは、ブロックチェーン上にMMRを作成することで実現されます。モデルのトレーニング後、そのメタデータ(識別子、ハイパーパラメータ、トレーニングデータセットの識別子を含む)がMMRに記録されます。

さらに、各トレーニングデータセットについて、そのDMRレコードが更新され、新しいモデルの識別子が含まれます。これにより、モデルとそのトレーニングデータセット間に双方向リンクが確立されます。

最後に、ライセンス契約に定められている条件に応じて、フレームワークはそれぞれの著作権所有者に通知を送信し、そのデータを使用してトレーニングされた新しいモデルを通知します。

モデルの再トレーニングと微調整

IBISは、初期モデルのトレーニングだけでなく、新しいデータがモデルに統合されるモデルの再トレーニングと微調整も容易にします。

新しいデータがスクレイピングおよび収集されるにつれて、DMRは拡張を続け、新しいライセンスが取得され、ライセンスレジストリに保存され、新しいデータセットの正当性が保証されます。

ただし、再トレーニングと微調整のシナリオでは、元のモデルが再トレーニングまたは微調整時にライセンスの更新を必要とする可能性があります。元のモデルのトレーニングデータセットの1つ以上のライセンスが無効になっている可能性があるためです。

したがって、モデルの再トレーニングまたは微調整を行う前に、モデルがライセンスの更新を必要とするかどうかを判断することにより、データの適格性を検証するための追加段階が必要になります。

また、新しいモデルは、新しいデータセットとマージされた元のモデルの集大成です。したがって、再トレーニング/微調整されたモデルのMMRに新しいエントリを記録する場合、トレーニングデータセットの識別子を記録することに加えて、AOは元のモデルの識別子も記録する必要があります。

これにより、反復的なモデルの再トレーニングまたは微調整プロセス全体で、データの出所とモデルの系統が容易になります。一方、元のモデルのメタデータは、新しいモデルへの参照を含めるように更新する必要があり、新しいモデルとそのソースモデル間に双方向リンクが確立されます。

機能操作と実装

IBISフレームワークにおける主な操作とその計算量を以下に示します。ここでは、オンチェーンレジストリはハッシュマップとして実装されており、検索の時間計算量はO(1)と仮定します。

  • データセットライセンスの取得: O(1)
  • モデルライセンスの取得: O(|D| + |M|)Dはデータセットの集合、Mはモデルの集合)
  • ライセンスの有効性の確認: O(|E|)Eは検証する環境変数の集合)
  • ライセンスされたデータセットの取得: O(|D||E|)
  • ライセンスで承認されたモデルの取得: O(|D||M|)
  • モデルデータセットの取得: O(|M|)

IBISの実装は、Damlスマートコントラクト言語とCantonブロックチェーンプロトコルを使用しています。これにより、プライバシー保護機能とモジュール設計を活用して、安全で商業的機密性を保護するフレームワークを構築しています。

パフォーマンス評価

IBISの評価結果によると、モデル所有者はモデルのデータセットとそのライセンスをそれぞれ約1.5秒と3秒で取得できることがわかりました。これは、フレームワーク内でホストされているモデル所有者、データセット、ライセンスの数に関係なく行われます。

さらに、ライセンスの承認されたモデルを取得するには、フレームワーク内のモデルごとのトレーニングデータセット、モデル所有者、ライセンスの数に関係なく、約1.5秒かかります。これらの結果は、さまざまな数のユーザー、データセット、モデル、ライセンスでのスケーラビリティを示しています。

IBISの新規性と意義

IBISは以下の特徴により、AIモデルのトレーニングにおけるデータの来歴と著作権管理に新たなアプローチをもたらします。

  1. シームレスな統合: 反復的なモデルの再トレーニングをサポートし、柔軟なライセンスチェックと更新を通じて多様な著作権契約に対応します。既存の契約ライフサイクル管理ソフトウェアと統合する統一されたAPIを提供することで、確立されたモデルトレーニングおよび著作権管理プロセスへの混乱を最小限に抑えます。

  2. 適応性: モデルメタデータ内のモデル間のリンクを確立し、スマートコントラクトを介した定期的なライセンス更新チェックを統合することで、IBISは継続的なモデルの再トレーニングとライセンス更新をサポートします。オンチェーンライセンスレジストリは、ブロックチェーンの不変性を活用し、モデル所有者と著作権者が過去のライセンスを取得して規制遵守を証明し、紛争を回避できるようにします。

  3. 追跡可能なレジストリ: データセットメタデータ、ライセンス、モデルメタデータのための3つのオンチェーンの不変レジストリを展開することで、フレームワークはデータセットとモデルの関係、所有権、および著作権契約の信頼できる記録を維持します。これらのレコード間の双方向リンクにより、データとモデルの著作権管理、来歴、および系統プロセス全体で双方向の追跡可能性が可能になります。

  4. ブロックチェーンベースのマルチパーティ署名: プライベートパーミッション型ブロックチェーンによって提供されるID管理およびデジタル署名機能を活用することで、IBISはAIモデルの所有者と著作権者間の効率的で安全なマルチパーティ署名ワークフローを可能にし、法的に準拠したライセンス契約の確立を保証します。

  5. 制御可能性: オンチェーンのアクセス制御メカニズムを実装し、厳格な許可ルールを遵守することで、IBISは許可された当事者のみがトレーニングデータセット、モデル、およびライセンスに関する情報にアクセスできるようにします。その結果、IBISは多くのAIモデル、データセット、およびライセンスを含むエコシステムを促進し、モデルとデータの所有者が商業的な機密性を保護しながら、統一されたプラットフォームのネットワーク効果を活用できるようにします。

結論

IBISは、AIモデルのトレーニングにおけるデータの来歴と著作権管理のためのブロックチェーンベースのフレームワークとして、以下の課題を解決します。

  1. AIモデルトレーニングの既存のワークフローとのシームレスな統合
  2. 新しいデータセットを使用した継続的なモデルの再トレーニングと微調整のサポート
  3. 多様なビジネスモデルへの対応とライセンスの有効期限と更新のメカニズムのサポート
  4. データセットとモデルの所有権の明確化と説明責任の確保
  5. AIサービスプロバイダーとデータ所有者間のコミュニケーションの促進
  6. ライセンスの効果的な管理と商業的機密性の確保

今後の研究方向としては、グラフ走査のパフォーマンスを最適化するためのさまざまなオンチェーンデータ構造の調査や、データクリーニング、モデルテスト、モデルの説明など、AIライフサイクルの追加段階をカバーするためのIBISの拡張などが考えられます。

AIの普及と共に、トレーニングデータの適切な管理と著作権遵守はますます重要になっています。IBISのようなフレームワークは、AIの開発者と著作権者の両方にとって、透明性と信頼性のある環境を提供し、AIの持続可能な発展に貢献するでしょう。

以上。

CryptoAI, Inc.

Discussion