👋

データサイエンス100本ノック（構造化データ加工編）をBigQueryでやりたいに応える

2022/04/24に公開

概要

以下にコード等を置いてありますので，興味がある方はご覧ください．
何か不具合あれば，issueでご連絡ください．

まず，Google Cloud Platform上でプロジェクトを作成します．

続いて，サービスアカウント，およびサービスアカウントキーを作成し，ローカルに保管します．

いよいよ，BigQueryを動かしてみます．

$ git clone git@github.com:yuiki-iwayama/100knocks-preprocess-BigQuery.gitでリポジトリを任意のディレクトリにcloneしてくる
$ cd 100knocks-preprocess-BigQueryでディレクトリを移動する
.envファイルをエディターで開き，以下の項目を記載する
- GCP_KEY_PATH=は「~/.gcp/<作成した鍵>.json」を記載する
- GCP_IAM=は，サービスアカウントのメールを記載する
- GCP_PROJECT_ID=は，「## 1. プロジェクトを作成する」で作ったプロジェクトのIDを記載する
  ※ナビゲーションメニュー->ホーム->プロジェクトIDで確認できる
- GCP_DATA=は，これから作りたいデータセット名を記載する
.env
```
GCP_KEY_PATH=
GCP_IAM=
GCP_PROJECT_ID=
GCP_DATA=
```
$ docker-compose up -d --buildでコンテナをbuildする（buildが終わっても，データを送っているため多少時間かかる）
$ docker-compose logsでデータセットの作成が成功しているかを確認できる
次にBigQuery上でもデータセットが作成されているかを確認できる
ブラウザでlocalhost:8888にアクセスしてJupyterLabを立ち上げる
BigQuery.ipynbを開き，1個めと2個めのセルを実行してうまくいけば，BigQueryで100本ノックを行える
Python.ipynbも1個めのセルを実行すれば，BigQueryからデータがDataframeに格納されるので，同様に100本ノックを行える

脚注

おそらく無料の範囲内（クエリ:毎月 1 TB，ストレージ:毎月 10 GB）で大丈夫とは思いますが，料金についてはGoogle BigQuery の料金体系を解説を参考にしてください． ↩︎
ステップ 1: Google Cloud アカウントを作成するを参考にしてください． ↩︎
Docker入門して機械学習環境構築を参考にしてください． ↩︎
サンドボックスの状態のままだと，コンテナをbuildしてから60日後にテーブルが消えるかもしれないですが，検証していません．詳しくはクレジットカードは不要 : クエリを無料で試せる BigQuery サンドボックスをご確認ください． ↩︎