🧹

AutoPrivacy DataCleanRoomの仕組み:TEE技術でセキュリティと性能を両立する次世代データクリーンルーム

に公開

株式会社Acompanyでエンジニアをしている坂本です。
本記事では、Acompanyが提供するDCR(DataCleanRoom)サービス AutoPrivacy DataCleanRoom のセキュリティ設計と実装について解説します。

目次

  1. 背景:データ共有についての課題
  2. AutoPrivacy DataCleanRoomサービス概要
  3. セキュリティモデル解説
  4. 開発者のためのクイックスタート
  5. Acompanyの強み
  6. おわりに

1. 背景: データ共有についての課題

昨今、多くの企業が抱える共通の課題として挙げられるのが

「他社とデータを組み合わせればもっと良い分析ができるはずだが、リスクが大きすぎる」

です。

【データ連携のイメージ図】
データ連携のイメージ図

例えば、以下のようなケースが考えられます。

医療機関の場合
複数の病院で症例データを統合すれば、より精度の高い診断システムを構築できるはず。
一方で、患者プライバシーの保護は絶対的な制約条件として存在。

広告配信企業の場合
複数の広告主や媒体社のデータを組み合わせることで、より精度の高いターゲティングや効果測定が可能。
一方で、Cookie規制などユーザー情報の収集・利用には制限がある。

この問題が深刻化している背景

大規模なデータを活用した分析や機械学習による競争優位の確立は、以前から多くの企業にとってビジネスの重要な要素となっていました。
さらに最近のAIブームによって、この傾向はさらに加速しています。
高品質な分析や予測を実現するには大規模で多様なデータが求められますが、単一企業のデータだけでは十分ではないケースが増えています。

一方で、個人情報保護規制は日に日に強まっています。
改正個人情報保護法、GDPR(General Data Protection Regulation)、カリフォルニア州消費者プライバシー法(CCPA)など、世界各国で規制が相次いで導入されています。
違反時には多額の制裁金が科されるなど、企業経営に深刻な影響を与えるリスクが存在します。

データクリーンルーム技術の現状

この課題の解決策として注目されているのが データクリーンルーム(DCR) という概念です。
DCRは、複数の組織が生データを互いに直接共有することなく共同でデータ分析を行うためのセキュアな環境のことです。
安全な方法でデータを連携し、分析結果を統計情報のような形で出力することが出来ます。

【DCR のイメージ図】
DCR のイメージ図

しかし、既存のDCRサービスには以下のような課題が存在します。

既存データクリーンルームの課題

既存のDCRサービスは、採用する技術によってそれぞれ異なる課題を抱えています。

課題1: サービス提供者への信頼依存

多くのDCRサービスでは、アクセス制御やポリシーによってデータを保護しています。
このアプローチでは、クラウドサービスプロバイダーやプラットフォーム運営者は技術的にはデータへアクセス可能です。
そのため、管理者がデータを持ち出したり、管理者アカウントが攻撃者によって侵害されたりすることで、データが漏洩するリスクが存在します。
実例については後ほど触れますが、こうした事例は決して稀ではありません。

課題2: 暗号化計算の性能問題

一方、完全準同型暗号(FHE)や秘密分散(MPC)などの暗号化計算技術を用いるDCRサービスもあります。
これらの技術を用いることで、データを暗号化したまま計算を実行できます。通常、暗号化されたデータを分析するには一度復号する必要がありますが、これらの技術を用いることで、復号せずに計算結果を得ることができます。これにより、データ処理者でさえも元のデータを見ることができない、暗号学的に強固なプライバシー保護が実現します。

しかし、暗号化されたまま計算を行うには膨大な計算コストがかかります。特に完全準同型暗号(FHE)は平文処理と比較して処理時間が大幅に増加するため、ビッグデータ分析やリアルタイム処理では実用的な性能が得られません。

AutoPrivacy DataCleanRoomのアプローチ:TEE技術の活用

今回紹介するAutoPrivacy DataCleanRoomは、TEE(Trusted Execution Environment)技術を用いて、これらの課題にアプローチしています。

TEEは秘密計算の分野で近年注目されている、機密情報をハードウェアで物理的に隔離する技術です。(詳細はセクション3で解説します)

TEEはマシンの中にトラスト領域と呼ばれる物理的に隔離された領域を持ち、その領域は環境保持者のAcompanyや、環境を提供するクラウドサービスプロバイダーですら閲覧することができないことが保証されています。
ユーザは自身の環境で暗号化したデータをTEEサーバにアップロードし、サーバは受け取ったデータをトラスト領域内で平文に戻して分析します。

【AutoPrivacy DataCleanRoomのイメージ図】
AutoPrivacy DataCleanRoomのイメージ図

また、TEEに搭載されているAttestation機能を用いることで、サーバが実際にどのように機密情報を処理するのかについてユーザ自身が検証出来るというのも大きな特徴です。
これにより、ユーザは機密データを送信する前にAcompanyのコードに悪意のある実装やセキュリティ設定の不備がないことを簡単に検証することができます。

まとめると、従来のDCRサービスと比較してAutoPrivacy DataCleanRoomの強みは大きく以下の三点です。

  1. ユーザが送信したデータは、攻撃者だけでなくサービス提供者やクラウドサービスプロバイダーなどの管理者からも不正にアクセス出来ないことが保証されている。
  2. データ分析は平文で行われるため、DCRの外で計算する場合と同等の速度で処理を実行することが出来る。
  3. ユーザはサーバを検証することで、サービス提供者であるAcompanyすらも一切信頼する必要がない

これらの強みについてはセクション3でも詳しく解説します。


2. AutoPrivacy DataCleanRoomサービス概要

AutoPrivacy DataCleanRoomは、AcompanyがTEEサーバーを提供し、ユーザーがCLI(コマンドラインインターフェース)を用いて操作するクラウドベースのデータクリーンルームサービスです。
クラウド対応もしているため、Snowflakeなどのクラウドデータベースから直接データをアップロードすることも可能です。

ユーザーはローカル環境で作成したPythonスクリプトをTEEサーバーにアップロードして実行します。
多くの分析者に馴染みのあるPythonで記述できるため、専用の言語やフレームワークを学習する必要がなく、既存の分析コードをそのまま活用できます。

基本的な使用方法

【2者の場合のサービス利用フロー図】
2者の場合のサービス利用フロー図

基本的な流れは以下の通りです。

  1. ユーザはローカル環境で作成したPythonスクリプトをTEEサーバーにアップロードします。
  2. ユーザはそれぞれ一般的な鍵交換プロトコルを用いて、TEEと自身のみが知っている共有鍵を生成します。
  3. この共有鍵を用いて、ユーザは自身のローカル環境下で機密データを暗号化してTEEサーバーにアップロードします。
  4. TEEサーバーはユーザがアップロードした機密データを復号し、平文に対してPythonスクリプトを実行して分析結果を生成します。
  5. 分析結果はTEE内で暗号化されてからユーザに返却されます。
  6. ユーザは返却された分析結果を自身のローカル環境下で復号し、結果を確認することができます。

サービスの特徴

ゼロトラスト指向の設計による高い安全性

AutoPrivacy DataCleanRoomの特徴の一つとして、ゼロトラスト指向のアーキテクチャを採用し、信頼する必要がある基盤(TCB: Trusted Computing Base)を最小限に抑えていることが挙げられます。
機密データはユーザのローカル環境で暗号化されて送信され、TEE内でのみ復号化されます。
TEE内で行われたデータ分析の結果も暗号化されたのちにユーザに返却されます。
TEE内は物理的に隔離された領域であるため、運営者(Acompany)やクラウドサービスプロバイダーを含む全ての人間が技術的にデータへアクセスできない構成となっています。

この設計の重要性は、管理者がデータにアクセス可能な従来のDCRサービスとの比較で明確になります。
従来のアクセス制御に依存するDCRでは、システム管理者や特権ユーザーによる内部不正や、外部からの攻撃によるデータ漏洩リスクが残ってしまいます。
実際、サイバーセキュリティ企業Mimecastが公開した事例集によると、以下のような事例が報告されています。

  • Tesla(2023年): 元従業員2人が7万5000人以上の従業員と顧客の個人情報(氏名、住所、電話番号、社会保障番号、銀行口座情報)を外国メディアに漏洩。生産機密情報や自動運転機能に関する苦情も流出した。

  • Yahoo(2022年): 研究者Qian Sangが競合他社The Trade Deskへの転職直前、AdLearn製品に関する約57万ページの機密情報を個人デバイスにダウンロード。Yahooは知的財産の独占的管理権を失ったとして訴訟を提起。

  • Microsoft(2022年): 複数の従業員がGitHubインフラへのログイン認証情報を誤って公開。攻撃者がAzureサーバーや他の内部システムにアクセスできる状態となり、EU顧客情報が漏洩していれば最大2000万ユーロのGDPR罰金の可能性があった。

  • Twitter(現X、2020年): ハッカーが従業員を標的としたフィッシング攻撃により、130の著名アカウントを侵害。内部のアカウントサポートツールへのアクセス権を獲得され、ビットコイン詐欺に悪用された。

  • Google(2016年): 元従業員Anthony Levandowskiが自動運転車プロジェクト「Project Chauffeur」(現Waymo)に関する数千のファイルを個人ラップトップにダウンロードし、Uberへの転職時に持ち出した。Googleは最大150万ドルの損失を被ったとし、Levandowskiも窃取を認めた。

AutoPrivacy DataCleanRoomでは、TEE技術によりハードウェアレベルでデータを物理的に隔離することで、こうしたリスクを技術的に排除しています。

既存コードの活用
AutoPrivacy DataCleanRoomでは、Pythonで書かれた一般的な分析コードをそのまま実行することができます。
ユーザは自身の環境で作成したスクリプトをアップロードするだけで分析を行うことが出来るため、新たな学習コストや専用の開発コストは不要です。
既存の機械学習ライブラリなども利用可能なため、幅広いユースケースに対応できます。

マルチクラウド対応
一部のDCRサービスでは、特定のプラットフォーム内のデータのみが分析対象となるため、他プラットフォームとの統合分析が制限されます。複数の広告プラットフォームを利用する企業では、統合的なROI分析が困難になるといった課題がありました。

AutoPrivacy DataCleanRoomは、AWS、Azure、GCP、Snowflakeなど、複数のクラウドプラットフォームからアクセス可能です。(一部のクラウドについては現在機能実装中です)
これにより、例えばSnowflakeに保管されているデータとAWSに保管されているデータを組み合わせた分析なども簡単に行うことができます。特定のプラットフォームエコシステムに縛られることなく、企業が既に利用している様々なクラウド環境のデータを統合して分析できます。

3. セキュリティモデル解説

技術者向けに、セキュリティモデルについて解説します。

TEE技術の解説

TEE (Trusted Execution Environment) は、CPUチップ内にハードウェアレベルで隔離された信頼できる実行環境を構築することを目指した技術です。

【TEEの概念図】
TEEの概念図
一般的にプロセスはOS・ハイパーバイザーから見えますが、TEEは物理的隔離によりOS、ハイパーバイザー、管理者からの完全隔離を目指しており、多くのTEE実装ではCPUによる自動的なメモリ暗号化と不正アクセスの自動検出・拒否機能が提供されています。
すなわち、TEEは「データを隠して処理する」従来のアプローチではなく、ハードウェアレベルでアクセス制御された環境での処理を目指した技術です。
実装によって詳細は異なりますが、一般的にトラスト領域外からはメモリをダンプしても暗号化された無意味なデータのみしか閲覧できず、root権限であってもトラスト領域内にアクセスできないよう、ハードウェアレベルで保護される設計になっています。

また、多くのTEE実装では、TEE内で秘密鍵を安全に生成し対応する公開鍵を外部に提供する機能があります。
ユーザはこの公開鍵を用いることで、TEE内でのみ復号出来る暗号化データを簡単に生成することが出来ます。

TEE について詳しく知りたい方はこちらの解説記事もご覧ください。

Remote Attestationによるコード検証

TEE内では機密データが平文で処理されるため、そこで実行される処理の内容が非常に重要になります。

TEE内部での処理の重要性

例えば、Acompanyが「TEEに入ったデータを全てAcompanyにメールで送信する」という処理を実装していた場合、ユーザが送信した機密データは全てAcompanyにバレてしまいます。

また、ユーザAが設定した分析スクリプトの中にこっそり「TEEに入ったデータを全てAにメールで送信する」という処理を記述していた場合、ユーザBが送信したデータは全てAにバレてしまいます。

以上のように、TEEがいかに堅牢な物理的な隔離による安全性を確保していたとしても、TEE内部で行われる処理の内容によってはユーザの機密データは容易に外部に漏れてしまいます。

この問題を解決するため、TEEには Remote Attestation(RA) という強力な検証機能が標準で備わっています。
Remote Attestationが具体的にどのような仕組みで何を検証するのかはTEEマシンのベンダーによって異なりますが、基本的な機能の一つとして、TEE内部の状態を改竄不可能な形で検証することが出来ます。

RAのイメージ図

代表的なTEEマシンの一つであるIntel SGXにフォーカスして、Remote Attestationの具体的な仕組みについて解説記事も公開していますので、そちらもご覧ください。

AutoPrivacy DataCleanRoomでは、この検証機能を活用してユーザーが安心してデータを送信できる仕組みを提供しています。

AutoPrivacy DataCleanRoomにおけるRAの活用方法について

AutoPrivacy DataCleanRoomにおいてRemote Attestationがどのように活用されているか、もう少し詳しく説明します。

一般的なRAの使われ方であるマシン自体の脆弱性検証や、Acompanyがあらかじめ実装しているシステムコードの正当性検証などはAutoPrivacy DataCleanRoomでも行われます。
AutoPrivacy DataCleanRoom独自の大きな特徴は、実行されるPythonスクリプトの内容をRAで検証するのではなく、スクリプトの内容を検証するロジック(下図の電卓部分)をRAで検証することです。
少々直感に反するアーキテクチャだと思いますが、なぜこのようなアーキテクチャを取っているかを説明します。

AutoPrivacy DataCleanRoomにおけるRAの活用方法

このアーキテクチャの採用理由をひとことで言えば、RAによるTEE状態の検証にかかるコストを極力減らすためです。

RAは非常に厳密な検証プロセスであるため、コードだけでなく初期データやメモリレイアウト、セキュリティ設定などTEEの状態全てのhash値を取得・検証します。
したがって、もしPythonスクリプトの内容をRAで検証する場合、ユーザーは実行したいPythonスクリプトごとに、そのスクリプトを含むTEEの状態全てのhash値を自身の環境で計算しておく必要があります。
これはTEEに慣れていない人には(なんなら慣れている人にとっても)決して簡単な操作ではありません。

そこでAutoPrivacy DataCleanRoomでは、TEE内部に「実行するPythonスクリプトのhash値を出力するロジック(図の電卓部分)」を書いています。
ユーザは最初に一度だけ、このロジック込みのTEE内部状態のhash値を自身の環境で計算しておきます。
これは実行したいスクリプトに依存しないことに留意してください。

以降、ユーザは機密データのアップロード前に、まずRAを行ってこのロジックが正しいことを検証します。
次に、検証したロジックを用いて、アップロードされているスクリプトのhash値を取得します。
ユーザは自分が期待しているPythonスクリプトのhash値を計算し、取得した値と比較することでPythonスクリプトが期待通りのものであることを検証することが出来ます。

このアプローチの本質は、検証の対象を静的な部分と動的な部分に分離している点にあります。
TEEの初期状態(メモリレイアウト、システムコード、セキュリティ設定など)は、スクリプトの内容に関わらず常に同一の静的なものです。
この部分のhash値計算は複雑で手間がかかりますが、一度計算すれば使い回すことができます。

一方、実行されるPythonスクリプトは動的に変化します。
もしこれをTEEの状態に含めて検証しようとすると、スクリプトが変わるたびにTEE全体のhash値を再計算する必要が生じます。
そこで本アーキテクチャでは、スクリプト自体のhash値のみを別途検証する方式を採用しました。
スクリプト単体のhash値であれば、TEEに非依存の値であり、ユーザーは手元で簡単に計算できます。

重要なのは、このスクリプトのhash値がRAによって検証された信頼できるロジックから出力されている点です。
つまり、動的な部分(スクリプト)の検証は簡素化しつつ、その検証プロセス自体の信頼性はRAによって担保されているのです。

この設計により、ユーザーは複雑なTEE状態の計算を初回の一度だけ行えばよく、以降は実行したいスクリプトのhash値を計算して比較するだけで、安全性を保ちながら柔軟にデータ分析を行うことができます。

AutoPrivacy DataCleanRoomのRAの利点

ここまでは概要の説明に留めましたが、実際のAutoPrivacy DataCleanRoomではより高度な暗号技術やプロトコルが組み合わされています。
例えばTEE内に「分析実行コンテナ」と「分析実行コンテナの検証コンテナ」を配置することで同じ実行環境が2回以上使用されないことを保証するなど、本記事では触れられなかった多くの工夫が存在します。

これらの技術詳細については、弊社R&Dチームがインテル社の研究者と共同執筆した学術論文が、国際暗号学会のePrintアーカイブに公開されています。
暗号技術やセキュリティプロトコルの実装に関心がある方は、ぜひご参照ください。

インテル社との共同研究について: https://www.acompany.tech/news/25-0507-1
論文: https://eprint.iacr.org/2025/727.pdf

また、検証機能が備わっていることの大きな強みとして、AutoPrivacy DataCleanRoomを使用するにあたってAcompany を信頼する必要が一切ないところが挙げられます。
TEE内に実装している全てのコードはRAによって検証可能であるため、Acompanyがあらかじめデータを盗み見るなどの悪意あるコードを実装していたとしても、ユーザーは機密データ送信前にそれを検知することができます。

4. 開発者のためのクイックスタート

AutoPrivacy DataCleanRoomトライアル申し込みフォームから申し込むことで、AutoPrivacy DataCleanRoomのトライアル環境をご利用いただけます。

開発者向けドキュメントは以下からご覧いただけます。
AutoPrivacy DataCleanRoom開発者向けドキュメント

ドキュメントにはデータ分析のチュートリアルも用意しています。
サンプルデータ・サンプル分析スクリプトなども同梱しているため、ユーザはトライアル環境さえあればすぐにTEE環境下でのデータ分析を試すことができます。

5. Acompanyの強み

AutoPrivacy DataCleanRoomのさらなる強みとして、プライバシーテック企業であるAcompanyが提供するサービスであることが挙げられます。

法規制対応の専門性
個人情報保護法やGDPRなどの法規制は複雑で、個別の技術やスキームに対する適法・違法の判断は高い専門知識を要します。
Acompanyはプライバシー保護技術に特化した企業として、特にTEEをはじめとする各技術の法的解釈に精通しており、技術面と法務面の両面から総合的なサポートを提供します。

エンタープライズへの導入実績
KDDIをはじめとする大手企業での導入実績があります。
https://www.acompany.tech/news/25-0716-1
特に日本国内においては、改正個人情報保護法をはじめとする国内規制への深い理解を持ち、日本企業特有のコンプライアンス要件やデータガバナンスの課題に対応した導入支援を行っています。

プロフェッショナルによる個別サポート
技術導入から法的要件の整理まで、企業ごとの個別事情に応じたサポートを提供しています。
単なる技術提供にとどまらない総合的なソリューションを提供しています。

これらの強みは、複数の企業間で機密データを扱うDCRの実運用において特に重要です。
企業間でのデータ協働では、技術的な安全性だけでなく、法的責任の所在、データガバナンス、契約上の取り決めなど、複雑な課題が絡み合います。
Acompanyの技術・法務・導入支援における総合的な専門性により、企業は安心してデータクリーンルームを活用した新しいデータ協働に踏み出すことができます。

6. おわりに

本記事では、「他社とデータを組み合わせればより良い分析ができるはずだが、情報漏洩リスクが大きすぎる」という多くの企業が抱える課題に対して、AutoPrivacy DataCleanRoomがどのようなアプローチで解決するかを解説しました。

既存のDCRサービスにはそれぞれ課題がありました。
アクセス制御に依存するアプローチでは、厳格な運用ポリシーを設けても内部不正リスクを技術的に排除できません。実際、Tesla、Microsoft、Googleなど大手企業でも内部関係者によるデータ漏洩事例が報告されています。
一方、暗号化計算技術を用いるアプローチは暗号学的にはセキュアですが、処理速度が大幅に低下するという実用上の課題があります。

AutoPrivacy DataCleanRoomは、TEE技術を用いることでこれらの課題を解決しています。
ハードウェアレベルの物理的隔離により、サービス提供者や管理者を含む全ての人間が技術的にデータへアクセスできない環境を実現し、内部不正のリスクを技術的に排除します。
同時に、TEE内では平文で処理を行うため、暗号化計算技術を用いるアプローチのような性能劣化もありません。
さらにRemote Attestationにより、ユーザーはサービス提供者であるAcompanyすら信頼する必要がなく、自ら安全性を検証できます。

この技術により、医療、金融、マーケティングなど、これまでプライバシーやセキュリティの制約で実現できなかった企業間データ協働が可能になります。
複数の病院が患者プライバシーを守りながら症例データを統合し診断精度を向上させる。複数の企業がユーザー情報を保護しながら協調してマーケティング効果を測定する。
こうした新しいデータ活用の形が、実用的な性能と確かなセキュリティの両立により実現します。

AI時代において、データは競争優位の源泉であると同時に、その取り扱いには厳格な規制と高い倫理性が求められます。
AutoPrivacy DataCleanRoomが、データを見せずに分析する技術として、企業のデータ活用とプライバシー保護の両立に貢献できれば幸いです。


サービス詳細・お申し込み
AutoPrivacy DataCleanRoomの詳細やお申し込みについては、サービスページをご覧ください。

お問い合わせ
その他ご質問については、Acompanyウェブサイトまでお気軽にお問い合わせください。

Acompany

Discussion