📝
【PDE勉強#02】BigQuery 外部テーブルと BigLake の違い
🧠 この記事でわかること
- BigQueryの「外部テーブル」ってなに?
- BigLakeってよく聞くけど何者?
- どう違って、どう使い分けたらいいの?
🏄♂️ そもそも「外部テーブル」とは?
外部テーブル = BigQueryでCloud Storageのファイル(CSV, Parquetなど)をそのままSQLで読める仕組み。
たとえばこんなことができます👇
SELECT * FROM `my_dataset.my_external_table` WHERE price > 1000;
✅ データをBigQueryに取り込まなくていいので、コストを抑えられるのがメリット!
🌊 BigLakeってなに?
BigLake = 「外部テーブル」の進化系
Cloud Storage や BigQuery のデータをもっと安全に・柔軟に使える仕組み。
ざっくり特徴👇
- ✅ Cloud StorageにもBigQueryにもテーブル定義できる
- ✅ SparkなどSQL以外の分析基盤とも連携できる
- ✅ 列単位のアクセス制御(ポリシータグ)が使える!
🔍 外部テーブルとBigLakeの違いまとめ
比較項目 | 外部テーブル | BigLake |
---|---|---|
対応ストレージ | Cloud Storageのみ | Cloud Storage + BigQuery |
列単位のアクセス制御 | ❌ | ✅ Data Catalogでポリシータグ管理 |
Spark対応 | ❌ | ✅ Spark-BigQuery Connectorで使える |
メタデータ管理 | 限定的 | ✅ Data Catalogで統合管理可能 |
データメッシュ対応 | ❌ | ✅ 拡張性あり |
運用の柔軟性 | △ | ◎ |
🧒 小学生でもわかるたとえ話
-
外部テーブル:図書館にある「ただの本棚」📚
→ 本は読めるけど、ルールもないし整理もされてない! -
BigLake:ちゃんと「目次・制限・オンライン検索」がついた本棚🗂️
→ みんなで安心して使える!
🎓 データエンジニア・大学生向けまとめ
- 外部テーブル:軽量な使い方に向いてるが、セキュリティ・チーム運用には弱い
- BigLake:スケーラブルな分析、ガバナンス、他ツールとの連携に強い!
🎯 結論:使い分けの目安
シーン | 選ぶべきもの |
---|---|
ちょっとCSVをクエリしたい | 外部テーブル |
チーム運用・セキュリティ管理も必要 | BigLake |
Sparkや複雑な分析基盤で使いたい | BigLake |
📘 もっと学ぶなら
✍️ 最後に
BigQueryを使い始めたとき、外部テーブルとBigLakeの違いで迷ったので、この記事が誰かの助けになれば嬉しいです🙌
今後も BigQuery / Spark / Cloud Storage などについて、初心者向けにシリーズで発信していく予定なので、よかったらフォローしてください!
タグ:#bigquery
#biglake
#gcp
#cloudstorage
#データ分析
Discussion