📘
【PDE勉強#04】Google Cloud 用語まとめ(一言で)
🌐 GCP全般
- プロビジョニング:リソースを事前に用意すること
- VPC(Virtual Private Cloud):クラウド上の仮想ネットワーク
- ファイアウォールルール:通信の許可・拒否の設定
- ネットワークタグ:通信ルールを適用するためのラベル
- サブネット:VPCの中を分けたネットワークの小部屋
- プロキシ:通信の仲介役
- IAM(Identity and Access Management):アクセス権を管理する仕組み
- VPC Service Controls:GCPサービスへのアクセス範囲を制限する仕組み
🗃 BigQuery
- パーティション分割:データを日付などで分けて保存すること
- プルーニング:不要なパーティションを読み飛ばすこと
- クラスタ化:特定の列で並べて検索を速くする工夫
- Storage Write API:高スループットでBigQueryに書き込める仕組み
- マテリアライズドビュー:計算済みの結果を保存するビュー
- INFORMATION_SCHEMA:メタ情報をSQLで調べるビュー群
☁ Cloud Storage
- デュアルリージョン:2つのリージョンに自動で複製するストレージ
- ターボレプリケーション:超高速で複製される仕組み
🧪 Dataflow / Apache Beam
-
ウィンドウ(Window):データを時間ごとに区切って集計する仕組み
- タンブリングウィンドウ:等間隔で切る(重複なし)
- ホッピングウィンドウ:ずらして切る(重複あり)
- セッションウィンドウ:ユーザーの行動ごとに切る
- ウォーターマーク:いつまでにデータが来ると期待するかの目安
- システムラグ:最新データとの差
- データの鮮度:最新のeventTimestampとの差
- バックログ:処理されずに溜まっているデータの山
- Reshuffle:Dataflowで並列処理をうながすステップ
🛠 Cloud Composer / Airflow
- DAG(有向非巡回グラフ):処理の順序を表す構造
- on_failure_callback:タスク失敗時に呼ばれる関数
- sla_miss_callback:処理が遅れた時に呼ばれる関数
🔐 DLP / セキュリティ関連
- Cloud DLP(Data Loss Prevention):個人情報などの検出・マスキングツール
- マスキング:機密データを隠す処理
🧰 その他 GCPサービス
- Dataform:SQLベースのETLツール
- Analytics Hub:BigQueryのデータを組織内で共有する仕組み
- Dataproc:SparkやHadoopを動かせるマネージドサービス
- Dataplex:データ管理とガバナンスのハブ
Discussion