【5日目】Databricks SQL の基礎 〜 SQL Warehouse / AI・BI ダッシュボード活用 〜
みなさんこんにちは、クルトンです!
今日は、レイクハウスの“分析”を担う Databricks SQL(DBSQL) を扱います。
SQL クエリの実行、BI ダッシュボード、外部 BI 接続の中心となる機能で、分析基盤をDatabricksに統合する際の要になる部分です。
SQL Warehouseの仕組みやAI/BIダッシュボードとの関係を押さえておくと、後日のDay10(パフォーマンス最適化)やDay23(Delta Sharing)も理解しやすくなります。
📘 Databricks SQLとは?
Databricks SQL(DBSQL)は、レイクハウス上のデータを SQL を使って分析・可視化するための環境 です。
Databricks公式:
主な役割:
- SQL Editor でクエリを実行する
- Delta Lake のデータを参照する
- ダッシュボードや可視化を作成する
- SQL Warehouse を通じて安定した分析処理を提供する
Databricks の「SQL」ワークスペースでは、クエリエディタ・実行履歴・ダッシュボード管理の機能がまとまっています。
🏗️ SQL Warehouseとは?
SQL Warehouseは、BIツールやSQL Editorからクエリを実行するための 専用の計算リソース です。
Databricks公式(ウェアハウスの種類):
特徴:
- 自動スケーリングで負荷変動に強い
- 高い同時接続数を処理できる
- キャッシュ機構による高速化
- Databricks Runtime とは別系統(分析特化)
📊 Warehouseの種類
公式ドキュメントの情報から簡単にまとめると、以下の3つに整理できます。
| 種類 | 特徴 | 主な用途 |
|---|---|---|
| Serverless Warehouse | 完全マネージド。起動が速い。スケーリング自動。 | Ad-hoc 分析、ダッシュボード、BI 接続 |
| Pro Warehouse | 安定した性能と同時接続数。細かい設定も可能。 | 企業内 BI、レポート基盤 |
| Classic Warehouse | 旧タイプ。機能は限定的。 | レガシーワークロード |
※ 詳細な比較は上記公式 URL を参照してください。
🖥️ SQL Editor(クエリ実行 UI)
SQL Editorは以下のような機能があります。
- SQL の補完(オートコンプリート)
- テーブルのプレビュー
- 実行結果の確認
- 実行履歴の参照
- 可視化(チャート)作成
Databricks公式:
クエリ結果をそのまま可視化してAI/BIダッシュボードに表示させられる点も大きな特徴です。
📊 AI/BI ダッシュボード
2025年以降、Databricks の正式なダッシュボード機能は AI/BI ダッシュボード が担っています。
Databricks公式:
主な特徴:
- 複数チャートを自由にレイアウト
- クエリのパラメータによる動的フィルタ
- 更新スケジュールによる定期リフレッシュ
- 他ユーザーへの共有
- AI アシスタントによる作成補助(チュートリアルあり)
※ 旧Dashboard(レガシーダッシュボード)は2026年1月12日に直接アクセス不可となり、移行ツールの提供は2026年3月2日までです。
🔌 BI ツールとの接続
Databricks SQL は多くの BI ツールと連携できます。
- Power BI
- Tableau
- Looker
- Apache Superset
- その他 JDBC/ODBC 対応ツール
接続方法
- JDBC
- ODBC
- Databricks SQL Connector
- SSO / トークン認証
などが使われます。
Databricks公式(Partner Connect):
接続先の一覧として以下リンク先にまとまっています。
⚡ Databricks SQL を使うときの最適化ポイント(基礎部分)
Day10 の内容を理解しやすくするため、
Day5 では最低限の最適化ポイントだけ触れておきます。
✔ クエリキャッシュ(Query Caching)
同じクエリを繰り返し実行するワークロードに効果的です。
✔ パーティションの利用
Delta Lake のパーティション設計は、クエリの高速化に大きく影響します。
✔ Z-Order(データスキッピング)
WHERE 句でよく使うカラムを軸に Z-Order を行うと高速化しやすいです。
(Day10 で詳細に扱います)
Databricks公式(最適化系):
🔗 今日の内容が後日にどう関係するか
-
Day7(DLT)
→ SQL で宣言的パイプラインを組む際に役立つ -
Day10(パフォーマンス最適化)
→ SQL Warehouse のキャッシュ・Z-Order の理解が必要 -
Day22(セキュリティ)
→ Unity Catalog と SQL Warehouse の関係 -
Day23(Delta Sharing)
→ 外部 BI から参照する際の SQL Warehouse が土台になる
📚 参考(公式ドキュメントまとめ)
-
Databricks SQL の基本
https://docs.databricks.com/aws/ja/sql/get-started/concepts -
SQL Warehouse(種類の比較)
https://docs.databricks.com/aws/ja/compute/sql-warehouse/warehouse-types -
SQL Editor
https://docs.databricks.com/aws/ja/sql/user/sql-editor/ -
AI/BI ダッシュボード
https://docs.databricks.com/aws/ja/dashboards/ -
BI 連携(Partner Connect)
https://docs.databricks.com/aws/ja/partner-connect
https://docs.databricks.com/aws/ja/integrations/ -
SQL の最適化(Performance Insights)
https://docs.databricks.com/aws/ja/sql/user/queries/performance-insights
https://www.databricks.com/discover/pages/optimize-data-workloads-guide
✨ 終わりに
今日は Databricks SQLの全体像 を以下のように整理しました。
- SQL の基本構造
- SQL Warehouse の種類
- SQL Editor の使い方
- 新しい AI/BI ダッシュボード
- BI ツールとの連携
- 最適化の入り口(Query Caching / Z-Order)
Databricksにおける“分析の要”を押さえることで、後日のDLT・最適化・Delta Sharingの理解がスムーズになります。
明日はデータエンジニアリングの基礎として、 Auto Loader によるデータ取り込みの基本 を扱います。
本日はここまで。
それではまた明日!
Discussion