📚

クラウドプロバイダー別データストア比較とDatabricks連携ガイド

2025/05/02に公開

 1. はじめにクラウド環境でのデータ分析基盤を構築する際、適切なデータストアの選択は重要な意思決定の一つです。さらに、Databricksのような強力なデータ分析プラットフォームと連携させるためには、互換性の高いサービスを選ぶことが成功への鍵となります。
この記事では、主要クラウドプロバイダー（AWS、Azure、Google Cloud）が提供するデータストアサービスを比較し、さらにDatabricksとの連携が容易なサービスについても解説します。
!本記事では、2025年5月時点のサービスを参考に記載しております。

 2. データタイプから見るサービス対応表まず、主要クラウドプロバイダーが提供するデータストアサービスを、データタイプごとに比較します。


データタイプ
Google Cloud
Azure
AWS


リレーショナルデータベース
・Cloud SQL 
・AlloyDB 
・Cloud Spanner
・Azure SQL Database 
・Azure Database for PostgreSQL
・Amazon RDS 
・Amazon Aurora

NoSQLデータベース
・Cloud Bigtable 
・Firestore
・Azure Cosmos DB
・Amazon DynamoDB 
・Amazon Keyspaces

データウェアハウス
・BigQuery
・Azure Synapse Analytics
・Amazon Redshift 
・Amazon Athena

オブジェクトストレージ
・Cloud Storage
・Azure Blob Storage
・Amazon S3

データレイク
・Cloud Storage
・Azure Data Lake Storage Gen2
・Amazon S3 + AWS Lake Formation


 3. Databricksとの連携Databricksは、すべての主要クラウドプロバイダー上で動作し、各クラウドプロバイダーのサービスと緊密に統合されています。各プロバイダーのどのデータストアサービスがDatabricksとの連携に適しているか見ていきましょう。

 Databricksとの連携が容易なデータストア/サービス

データタイプ
Google Cloud
Azure
AWS


リレーショナルデータベース
-
・Azure SQL Database
・Amazon RDS

NoSQLデータベース
-
・Azure Cosmos DB
・Amazon DynamoDB

データウェアハウス
・BigQuery
・Azure Synapse Analytics
・Amazon Redshift

オブジェクトストレージ
・Cloud Storage
・Azure Blob Storage
・Amazon S3

データレイク
・Cloud Storage
・Azure Data Lake Storage Gen2
・Amazon S3 + AWS Lake Formation


 クラウドプロバイダー別のDatabricks連携の特徴
 Azure DatabricksAzure DatabricksはMicrosoftとDatabricksが共同開発した一級のサービスで、Azureポータルからワンクリックで起動でき、Azure関連のセキュリティやデータサービスとネイティブに統合されています。特にMicrosoft Fabricとの連携が強化されており、同じオープンDelta Parquetストレージフォーマットを使用しているため、シームレスな連携が可能です。
主な連携サービス:
Azure Synapse Analytics
Azure Data Lake Storage Gen2
Azure SQL Database
Azure Blob Storage

 AWS DatabricksAWS上のDatabricksでは、すべてのS3データをシンプルでオープンなレイクハウスプラットフォーム上で保存・管理できます。AWSのGravitonインスタンスをサポートしており、Amazon EC2上で高い価格パフォーマンスを提供します。PrivateLinkを使用してVPC内にプライベートエンドポイントを確立し、DatabricksワークスペースとAWSサービス間のトラフィックを安全に保つことができます。
主な連携サービス:
Amazon S3
AWS Lake Formation
Amazon Redshift
Amazon RDS
Amazon DynamoDB

 Google Cloud DatabricksGoogle Cloud上のDatabricksは、BigQueryやLookerなどのGoogleのデータ製品と統合されたオープンレイクハウスプラットフォームを提供します。特にGoogle Kubernetes Engine（GKE）上でのコンテナ化されたデプロイメントをサポートしており、これは任意のクラウド上で初めてのKubernetesベースのDatabricksランタイムです。Google Cloudのセキュアで管理されたKubernetesサービスを活用することで、より速く低コストでワークロードを実行できます。
主な連携サービス:
BigQuery
Cloud Storage
Looker

 4. 選択のポイントDatabricksと連携するクラウドサービスを選ぶ際の主なポイントは以下の通りです：
既存の環境との統合:

既に利用しているクラウドプロバイダーがある場合、そのプロバイダー上のDatabricksを利用するのが最も効率的です。
データレイク/ウェアハウスの選択:

各クラウドプロバイダーのデータレイクとデータウェアハウスサービスはDatabricksとの親和性が特に高いため、優先的に検討すべきです。
Azure: Azure Data Lake Storage Gen2とAzure Synapse Analytics
AWS: Amazon S3 + AWS Lake FormationとAmazon Redshift
Google Cloud: Cloud StorageとBigQuery
パフォーマンス要件:

データ量やレイテンシ要件に応じて、適切なサービスを選択しましょう。
コスト:

各サービスの料金体系は異なるため、予算に応じた選択を行いましょう。

 5. 分析ケースに応じたデータストア選定!下記に記載するサービスの選定は一例になります。実際にはパフォーマンス要件やコスト要件などを考慮して選定しましょう。
ユースケース1:

クレジットカード詐欺検知やトレーディングシステムにおける異常な取引パターンをリアルタイムで検出
データの特性:
高頻度のトランザクションデータ
リアルタイム処理が必要
履歴データと現在のデータの組み合わせ分析
推奨データストア構成:


Google Cloud
Azure
AWS


・Cloud Bigtable (ストリーミングデータ) 
・BigQuery (履歴分析)
・Azure Cosmos DB (ストリーミングデータ) 
・Azure Synapse Analytics (履歴分析)
・Amazon DynamoDB (ストリーミングデータ)  
・Amazon Redshift (履歴分析)

Databricksとの連携ポイント:
ストリーミングデータ処理にDatabricksのStructured Streamingを活用
異常検知モデルをDatabricks上で開発・デプロイ
履歴データの分析にDatabricks SQLを使用
ユースケース2: 工場内の多数のセンサーからデータを収集し、予防保全や品質管理に活用
データの特性:
時系列データ
多種多様なセンサーからの高ボリュームデータ
エッジでの前処理とクラウドでの分析の組み合わせ
推奨データストア構成:


Google Cloud
Azure
AWS


・Cloud Storage (生データ) 
・Cloud Bigtable (時系列データ) 
・BigQuery (長期分析)
・Azure Data Lake Storage Gen2 (生データ) 
・Azure Cosmos DB (時系列データ) 
・Azure Synapse Analytics (長期分析)
Amazon S3 (生データ) 
・Amazon Timestream (時系列データ) 
・Amazon Redshift (長期分析)

Databricksとの連携ポイント:
スケーラブルなETLパイプラインの構築
予知保全のための機械学習モデル開発
リアルタイムダッシュボードとアラート機能の実装

 6. データストア選定の一般的な基準様々なユースケースに適したデータストアを選定する際の一般的な基準は以下の通りです：

データの種類と構造: 構造化データ、半構造化データ、非構造化データのどれが主体か

データ量: 現在のデータ量と将来のボリューム予測

クエリパターン: 分析的クエリが主体か、トランザクション処理が主体か

レイテンシ要件: リアルタイム処理が必要か、バッチ処理で十分か

スケーラビリティ: データ量の増加に応じてどの程度スケールアップ/アウトが必要か

コスト: ストレージコスト、処理コスト、運用コストのバランス

統合要件: 既存システムや他のデータソースとの連携のしやすさ

セキュリティとコンプライアンス: データガバナンスとセキュリティ要件の充足度

 7. まとめクラウドプロバイダーが提供する様々なデータストアサービスを理解し、Databricksとの連携を考慮した上で適切なサービスを選択することで、効率的なデータ分析基盤を構築することができます。ビジネスケースに応じた適切なデータストア選定がデータ分析プロジェクトの一つの鍵となりますので、本記事が参考になれば幸いです。

データタイプ	Google Cloud	Azure	AWS
リレーショナルデータベース	・Cloud SQL ・AlloyDB ・Cloud Spanner	・Azure SQL Database ・Azure Database for PostgreSQL	・Amazon RDS ・Amazon Aurora
NoSQLデータベース	・Cloud Bigtable ・Firestore	・Azure Cosmos DB	・Amazon DynamoDB ・Amazon Keyspaces
データウェアハウス	・BigQuery	・Azure Synapse Analytics	・Amazon Redshift ・Amazon Athena
オブジェクトストレージ	・Cloud Storage	・Azure Blob Storage	・Amazon S3
データレイク	・Cloud Storage	・Azure Data Lake Storage Gen2	・Amazon S3 + AWS Lake Formation

データタイプ	Google Cloud	Azure	AWS
リレーショナルデータベース	-	・Azure SQL Database	・Amazon RDS
NoSQLデータベース	-	・Azure Cosmos DB	・Amazon DynamoDB
データウェアハウス	・BigQuery	・Azure Synapse Analytics	・Amazon Redshift
オブジェクトストレージ	・Cloud Storage	・Azure Blob Storage	・Amazon S3
データレイク	・Cloud Storage	・Azure Data Lake Storage Gen2	・Amazon S3 + AWS Lake Formation

1. はじめに

2. データタイプから見るサービス対応表

3. Databricksとの連携

Databricksとの連携が容易なデータストア/サービス

クラウドプロバイダー別のDatabricks連携の特徴

Azure Databricks

AWS Databricks

Google Cloud Databricks

4. 選択のポイント

5. 分析ケースに応じたデータストア選定

6. データストア選定の一般的な基準

7. まとめ

Discussion