📘

【PDE勉強#04】Google Cloud 用語まとめ(一言で)

に公開

🌐 GCP全般

  • プロビジョニング:リソースを事前に用意すること
  • VPC(Virtual Private Cloud):クラウド上の仮想ネットワーク
  • ファイアウォールルール:通信の許可・拒否の設定
  • ネットワークタグ:通信ルールを適用するためのラベル
  • サブネット:VPCの中を分けたネットワークの小部屋
  • プロキシ:通信の仲介役
  • IAM(Identity and Access Management):アクセス権を管理する仕組み
  • VPC Service Controls:GCPサービスへのアクセス範囲を制限する仕組み

🗃 BigQuery

  • パーティション分割:データを日付などで分けて保存すること
  • プルーニング:不要なパーティションを読み飛ばすこと
  • クラスタ化:特定の列で並べて検索を速くする工夫
  • Storage Write API:高スループットでBigQueryに書き込める仕組み
  • マテリアライズドビュー:計算済みの結果を保存するビュー
  • INFORMATION_SCHEMA:メタ情報をSQLで調べるビュー群

☁ Cloud Storage

  • デュアルリージョン:2つのリージョンに自動で複製するストレージ
  • ターボレプリケーション:超高速で複製される仕組み

🧪 Dataflow / Apache Beam

  • ウィンドウ(Window):データを時間ごとに区切って集計する仕組み
    • タンブリングウィンドウ:等間隔で切る(重複なし)
    • ホッピングウィンドウ:ずらして切る(重複あり)
    • セッションウィンドウ:ユーザーの行動ごとに切る
  • ウォーターマーク:いつまでにデータが来ると期待するかの目安
  • システムラグ:最新データとの差
  • データの鮮度:最新のeventTimestampとの差
  • バックログ:処理されずに溜まっているデータの山
  • Reshuffle:Dataflowで並列処理をうながすステップ

🛠 Cloud Composer / Airflow

  • DAG(有向非巡回グラフ):処理の順序を表す構造
  • on_failure_callback:タスク失敗時に呼ばれる関数
  • sla_miss_callback:処理が遅れた時に呼ばれる関数

🔐 DLP / セキュリティ関連

  • Cloud DLP(Data Loss Prevention):個人情報などの検出・マスキングツール
  • マスキング:機密データを隠す処理

🧰 その他 GCPサービス

  • Dataform:SQLベースのETLツール
  • Analytics Hub:BigQueryのデータを組織内で共有する仕組み
  • Dataproc:SparkやHadoopを動かせるマネージドサービス
  • Dataplex:データ管理とガバナンスのハブ

Discussion