📝

【PDE勉強#02】BigQuery 外部テーブルと BigLake の違い

に公開

🧠 この記事でわかること

  • BigQueryの「外部テーブル」ってなに?
  • BigLakeってよく聞くけど何者?
  • どう違って、どう使い分けたらいいの?

🏄‍♂️ そもそも「外部テーブル」とは?

外部テーブル = BigQueryでCloud Storageのファイル(CSV, Parquetなど)をそのままSQLで読める仕組み。

たとえばこんなことができます👇

SELECT * FROM `my_dataset.my_external_table` WHERE price > 1000;

✅ データをBigQueryに取り込まなくていいので、コストを抑えられるのがメリット!


🌊 BigLakeってなに?

BigLake = 「外部テーブル」の進化系
Cloud Storage や BigQuery のデータをもっと安全に・柔軟に使える仕組み。

ざっくり特徴👇

  • ✅ Cloud StorageにもBigQueryにもテーブル定義できる
  • ✅ SparkなどSQL以外の分析基盤とも連携できる
  • ✅ 列単位のアクセス制御(ポリシータグ)が使える!

🔍 外部テーブルとBigLakeの違いまとめ

比較項目 外部テーブル BigLake
対応ストレージ Cloud Storageのみ Cloud Storage + BigQuery
列単位のアクセス制御 ✅ Data Catalogでポリシータグ管理
Spark対応 ✅ Spark-BigQuery Connectorで使える
メタデータ管理 限定的 ✅ Data Catalogで統合管理可能
データメッシュ対応 ✅ 拡張性あり
運用の柔軟性

🧒 小学生でもわかるたとえ話

  • 外部テーブル:図書館にある「ただの本棚」📚
     → 本は読めるけど、ルールもないし整理もされてない!

  • BigLake:ちゃんと「目次・制限・オンライン検索」がついた本棚🗂️
     → みんなで安心して使える!


🎓 データエンジニア・大学生向けまとめ

  • 外部テーブル:軽量な使い方に向いてるが、セキュリティ・チーム運用には弱い
  • BigLake:スケーラブルな分析、ガバナンス、他ツールとの連携に強い!

🎯 結論:使い分けの目安

シーン 選ぶべきもの
ちょっとCSVをクエリしたい 外部テーブル
チーム運用・セキュリティ管理も必要 BigLake
Sparkや複雑な分析基盤で使いたい BigLake

📘 もっと学ぶなら


✍️ 最後に

BigQueryを使い始めたとき、外部テーブルとBigLakeの違いで迷ったので、この記事が誰かの助けになれば嬉しいです🙌

今後も BigQuery / Spark / Cloud Storage などについて、初心者向けにシリーズで発信していく予定なので、よかったらフォローしてください!

タグ:#bigquery #biglake #gcp #cloudstorage #データ分析

Discussion