🦁

BigQuery超入門②

2024/12/28に公開

 はじめにこの記事は BigQuery 超入門 ① の続きになります。

 学んだことテーブル結合
テーブル集合演算
NULL の扱い
仮想テーブル

 テーブル結合（横方向につなぐ）複数のテーブルを横方向につなぐ方法として「テーブル結合」という方法がある。

これを実現する JOIN について確認する。

 INNER JOIN（内部結合）二つのテーブルが共通して持つフィールドの値が一致するレコードのみを残す。
sales テーブル


sale_id
product_id
sale_amount


1
101
500

2
102
300

3
103
700

product テーブル


product_id
product_name


101
Product A

102
Product B

103
Product C

104
Product D

SQL 実行
SELECT
  *
FROM
  project_id.dataset.sales AS s
  INNER JOIN project_id.dataset.products AS p
  ON s.product_id = p.product_id
結合結果
product_id=104 は sales テーブルに存在しないため結合時に削除される。
そして両テーブルのフィールドが結合され横方向に結合される。


sale_id
product_id(sales)
product_id(products)
sale_amount
product_name


1
101
101
500
Product A

2
102
102
300
Product B

3
103
103
700
Product C


 USING結合するテーブルで共通のフィールドを持っている場合は USING 句を使うことができる。

USING 句を使うことで結合した時に共通のフィールドが一つになる。
SELECT
  *
FROM
  project_id.dataset.sales AS s
  INNER JOIN project_id.dataset.products AS p
  USING(product_id)
結合結果（JOIN の場合）

共通のフィールドが両方表示される。


sale_id
product_id（sales）
product_id（product）
sale_amount
product_name


1
101
101
500
Product A

2
102
102
300
Product B

3
103
103
700
Product C

結合結果（USING の場合）

共通のフィールドが一つにまとまる。


sale_id
product_id
sale_amount
product_name


1
101
500
Product A

2
102
300
Product B

3
103
700
Product C


 LEFT OUTER JOIN（左外部結合）結合時、先に指定したテーブルを「左側」、後に指定したテーブルを「右側」として左側は全レコード、右側は左側と共通して持つフィールドの値が重なっているレコードのみを結合する。

共通のフィールドの値が左側にはあるが右側には存在しない場合、結合したフィールドの値は null になる。

共通のフィールドの値が右側にしか存在しない場合は結合時に削除される。
products テーブル


product_id
product_name


1
アジ

2
サバ

3
タコ

orders テーブル


order_id
product_id
qty


1
2
4

2
3
3

3
4
4

SQL 実行
SELECT
  p.product_id,
  o.qty,
  p.product_name
FROM
  project_id.dataset.products AS p
  LEFT JOIN project_id.dataset AS o
  ON p.product_id = o.product_id
結合結果
order_id=3 が持つ product_id は products テーブルに存在しないため結合した時に削除される。
product_id=1 は orders テーブルに存在しないため結合したフィールドの値は null になる。


product_id
qty
product_name


1
null
アジ

2
4
サバ

3
3
タコ

注意したい点としてはベースとなるテーブルを左側に指定すること。（先に指定したテーブルが全レコード残るため）例えば products テーブルを残したい場合 products テーブルを右側に指定してしまうと orders テーブルに存在しない product_id を持つレコードは削除されてしまうため意図しない結合結果になってしまう。
SELECT
  o.product_id,
  o.qty
FROM
  project_id.dataset AS o
  LEFT JOIN project_id.dataset.products AS p
  ON o.product_id = p.product_id
意図しない結合結果になる。


product_id
qty
product_name


2
4
サバ

3
3
タコ

4
4
null


 RIGHT JOIN（右外部結合）LEFT JOIN とは逆で先に指定したテーブルを「左側」、後に指定したテーブルを「右側」として右側は全レコード、左側は右側と共通して持つフィールドの値が重なっているレコードのみを結合する。

共通のフィールドの値が右側にはあるが左側には存在しない場合、結合したフィールドの値は null になる。

共通のフィールドの値が左側にしか存在しない場合は結合時に削除される。
また左右の結合でも結合キーが同じであれば USING を使うことができる。
SELECT
  *
FROM
  project_id.dataset.products AS p
  LEFT JOIN project_id.dataset AS o
  USING(product_id)

 FULL JOIN（完全外部結合）結合時、先に指定したテーブルを「左側」、後に指定したテーブルを「右側」として左側と右側の全レコードを残す結合。 相手方にないフィールドは null になる。
products テーブル


product_id
product_name


1
アジ

2
サバ

3
タコ

orders テーブル


order_id
product_id
qty


1
2
4

2
3
3

3
4
4

SELECT
  p.product_id AS p_product_id,
  o.product_id AS o_product_id,
  p.product_name,
  o.order_id,
  o.qty
FROM
  project_id.dataset.products AS p
  FULL JOIN project_id.dataset.orders AS o
  ON p.product_id = o.product_id
結合結果


p_product_id
o_product_id
product_name
order_id
qty


1
null
アジ
null
null

2
2
サバ
1
4

3
3
タコ
2
3

null
4
null
3
4


 SELF JOIN（自己結合）異なるテーブルではなく、同じテーブル同士を結合する自己結合というパターンも存在する。

決まった書き方があるわけではなく今までの JOIN を使う。（実務で使うことが多々あり勉強になった）

例えば次のような年間販売個数テーブルで前年との比較をしたい場合などに使える。
annual_sales_volumes（年間販売個数）テーブル


year
qty


2021
272

2022
309

2023
310

年を一つずらすように結合する。
SELECT
  a1.year AS base_year,
  a2.year AS compare_year,
  a1.qty AS base_qty,
  a2.qty AS compare_qty,
  IFNULL(ROUND(SAFE_DIVIDE(a2.qty,a1.qty)*100, 2), 0) AS growth_rate_percent
FROM s_5_4_a AS a1 INNER JOIN s_5_4_a AS a2 ON a1.year = a2.year-1 // ここがポイント
結合結果


base_year
compare_year
base_qty
compare_qty
growth_rate_percent


2021
2022
272
309
113.6

2022
2023
309
310
100.32


 CROSS JOIN（交差結合）左側のテーブル 1 レコード に対して右側の全レコードを結合していく総当たりの形式での結合方法。

例えば 3 レコード存在するテーブル同士を結合した場合は 3*3 で 9 レコードになる。
SELECT
  a1.year AS base_year,
  a2.year AS compare_year,
  a1.qty AS base_qty,
  a2.qty AS compare_qty,
FROM
  project_id.dataset.annual_sales_volumes AS a1
  CROSS JOIN project_id.dataset.annual_sales_volumes AS a2
結合結果


base_year
compare_year
base_qty
compare_qty


2021
2021
272
272

2021
2022
272
309

2021
2023
272
310

2022
2021
309
272

2022
2022
309
309

2022
2023
309
310

2023
2021
310
272

2023
2022
310
309

2023
2023
310
310


 NULL の扱いテーブル結合では結合の仕方によっては NULL が発生することもあり、この NULL の扱いをどうするかが重要になる。

ここではフィールドの値が NULL の場合に置き換えることができる方法について確認する。

 IFNULLIFNULL 関数を使うことで値が null だった場合に任意の値を入れることができる。

もちろん任意の値の型はフィールドに合わせる必要がある。
SELECT
  p.product_id,
  p.product_name,
  IFNULL(o.qty, 0) AS qty
FROM
  project_id.dataset.products AS p
  LEFT JOIN project_id.dataset.orders AS o
  USING(product_id)
null は 0 に置き換わる


product_id
qty
product_name


1
0
アジ

2
4
サバ

3
3
タコ


 COALESCECOALESCE 関数を使うとより高度に null を扱うことができる。

null の場合に別カラムを指定できる。

例えば「registration_year（登録年）が null の場合は first_purchase_year（初回購入年）に置き換える」といったことができる。
SELECT
  COALESCE(registration_year, first_purchase_year) AS register_user
FROM
  project_id.dataset.test1 AS t1
  INNER JOIN project_id.dataset.test2 AS t2 USING(user_id)
GROUP BY register_user

 テーブル集合演算ここからは複数のテーブルを縦方向につなぐ方法である「テーブル集合演算」について確認する。

テーブルという「集合」同士の「演算」（足し算/掛け算/引き算）という考え方からテーブルの集合演算と呼ばれているらしい。

 UNION（和集合）UNION はテーブルとテーブルを足し算して和集合を作る。

和集合とは二つの集合を「もれなく」「ダブりなく」ひとつにまとめる演算。
UNION ALL を使うと重複を許可して結合する。

products テーブル ①


product_name
qty


アジ
10

サバ
20

タコ
30

products テーブル ②


product_name
qty


サバ
20

タコ
40

イカ
50

SELECT
  product_name, qty
FROM
  project_id.dataset.product1
UNION ALL
SELECT
  product_name, qty
FROM
  project_id.dataset.product2
実行結果

サバ, 20 が重複しているがそのままレコードが増える。


product_name
qty


アジ
10

サバ
20

タコ
30

サバ
20

タコ
40

イカ
50

一方 UNION DISTINCT は重複を許可しない。
SELECT
  product_name, qty
FROM
  project_id.dataset.product1
UNION DISTINCT
SELECT
  product_name, qty
FROM project_id.dataset.product2
実行結果

サバ, 20 が重複しているためレコードは削除される。


product_name
qty


アジ
10

タコ
30

タコ
40

イカ
50


 補足 1. 集合演算における重複の考え方集合演算における「重複」とはSELECT で取得している全フィールドの内容が全て一致するかどうかという考え方になる。
🙆 重複している

「サバ」「20」が重複しており全フォールドの内容が一致している。


product_name
qty


サバ
20

サバ
20

🙅 重複していない

「サバ」は重複しているが数が一致していないため全フォールドで見ると一致していない。


product_name
qty


サバ
10

サバ
20


 補足 2. 集合演算をする際の注意点SELECT で抽出するフィールドの種類、数、順序完全に一致していなければならない。
🙆 一致している

両テーブルの product_id フィールドの値が抽出される
SELECT
  s.product_id
FROM
  project_id.dataset_id.sales AS s
UNION ALL
SELECT
  p.product_id
FROM
  project_id.dataset_id.products AS p
🙅 一致していない（型の不一致）

「s.user_id」と「p.product_name」はそもそも型が一致しないのでエラーになる。
SELECT
  s.product_id,
+ s.user_id
FROM
  project_id.dataset_id.sales AS s
UNION ALL
SELECT
  p.product_id,
+ p.product_name
FROM
  project_id.dataset_id.products AS p
🙅 一致していない（型は一致するがフィールドが相違）

「s.user_id」と「p.cost」は型が一致するため SQL は実できる。
しかしフィールドが相違しているため左側で指定したフィールドが有効になり意図しない実行結果になってしまう点に注意する。
SELECT
  s.product_id,
+ s.user_id
FROM
  project_id.dataset_id.sales AS s
UNION ALL
SELECT
  p.product_id,
+ p.cost
FROM
  project_id.dataset_id.products AS p
user_id が途中から cost の値になってしまう。


product_id
user_id


1
1

2
2

3
3

4
15000

4
35000


 INTERSECT（積集合）INTERSECT は重複するレコードだけを取り出し積集合を作る。

積集合とは二つの集合から共通部分を取り出す演算。

必ず DISTINCT と併せて使用する。
SELECT
  product_name, qty
FROM
  project_id.dataset.product1
INTERSECT DISTINCT
SELECT
  product_name, qty
FROM project_id.dataset.product2
実行結果

重複しているサバ, 20 のみを取得する。


product_name
qty


サバ
20


 EXCEPT（差集合）EXCEPT はあるテーブルから別のテーブルを差し引いた差集合を作る。

差集合とは二つの集合から別の集合に属する集合を差し引く演算。
SELECT
  product_name, qty
FROM
  project_id.dataset.product1
EXCEPT DISTINCT
SELECT
  product_name, qty
FROM
  project_id.dataset.product2
実行結果

product テーブル ② と重複しているサバが差し引かれたレコードを取得する。


product_name
qty


アジ
10

タコ
30

EXCEPT はテーブルを記述する順番によって結果が変わる。

例えば上記の SQL の FROM を逆にすると結果も変わる。
SELECT
  product_name, qty
FROM
  project_id.dataset.product2
EXCEPT DISTINCT
SELECT
  product_name, qty
FROM
  project_id.dataset.product1
実行結果

product テーブル ① に属してるレコードは差し引いたレコードを取得する。


product_name
qty


タコ
40

イカ
50


 仮想テーブルここまで FROM には実在するテーブルを指定してきたが、SQL を実行した結果を返すテーブルである仮想テーブルを指定することも可能。

実体のあるテーブルから一時的に必要な仮のテーブルを作ることで集計が便利になったり SQL 文の可読性の向上が期待できたりする。

仮想テーブルを作成する方法としては WITH/ビュー/サブクエリの 3 パターンが存在する。

 WITH
WITH とはクエリ内で一時的に参照するテーブル（仮想テーブル）を作成しあたかも実在するテーブルかのように扱うことができるもの
CTE（共通テーブル式） とも呼ばれている。
あくまでもクエリ内で一時的に参照できる仮想テーブルのため、クエリ内でしか使うことができない。またクエリが終了すると消える一時的なテーブルになる。
次のように WITH 句を使って実行する。

実行結果のテーブル（仮想テーブル）に対して名前をつけることで、以降はその名前を使って実体のあるテーブルかのように繰り返し使うことができる。
ここでは「月毎の平均売り上げ個数」という仮想テーブルを作ることでクエリ内で必要な時に通常と同じような扱いでテーブルとして扱うことができる。
WITH avg_january_qty AS (
    SELECT AVG(qty) AS qty_january
    FROM january_order_products
),

avg_february_qty AS (
    SELECT AVG(qty) AS qty_february
    FROM february_order_products
)

// 以降は通常のテーブルのように扱うことができる
SELECT
  *
FROM
  avg_january_qty CROSS JOIN avg_february_qty
このように WITH を使って仮想テーブルを作っておくことで繰り返し使う際にテーブルを呼び出すだけになる。

また適切な名前をつけることでクエリの可読性の向上に繋がる。

 ビュービューとはSQL の実行結果を保存したもの。（=仮想テーブルを保存したもの）

WITH で作る仮想テーブルとは違い BigQuery 上に保存できるため、あたかも実体のあるテーブルかのように仮想テーブルを使い回すことができる。

例えば先ほど使った「1 月の平均売り上げ個数」のクエリの結果をビューとして保存すると次のようなクエリで呼び出すことができる。

（ビュー名は適当です）
SELECT
  *
FROM
  project_id.dataset.view_avg_january_qty
ビューに関しての注意点として、あくまでも実体のあるテーブルはなく SQL 文の実行結果によって生成される結果テーブルである、という点が挙げられる。

そのためビューを対象として SQL 文を実行するとビューの SQL 文が再実行されるという動作になるので次の点に気を付ける。
ビューで保存した SQL 文の処理が時間かかるなら総じて処理に時間がかかる

実行結果が都度変わる可能性がある
元データが変わると結果も変わるため


 最後にインプットすることで引き出しが増えてきた
UNION と JOIN をごちゃ混ぜで考えていたが違いを知ることができた

sale_id	product_id	sale_amount
1	101	500
2	102	300
3	103	700

product_id	product_name
101	Product A
102	Product B
103	Product C
104	Product D

sale_id	product_id(sales)	product_id(products)	sale_amount	product_name
1	101	101	500	Product A
2	102	102	300	Product B
3	103	103	700	Product C

sale_id	product_id（sales）	product_id（product）	sale_amount	product_name
1	101	101	500	Product A
2	102	102	300	Product B
3	103	103	700	Product C

sale_id	product_id	sale_amount	product_name
1	101	500	Product A
2	102	300	Product B
3	103	700	Product C

product_id	product_name
1	アジ
2	サバ
3	タコ

order_id	product_id	qty
1	2	4
2	3	3
3	4	4

product_id	qty	product_name
1	null	アジ
2	4	サバ
3	3	タコ

product_id	qty	product_name
2	4	サバ
3	3	タコ
4	4	null

product_id	product_name
1	アジ
2	サバ
3	タコ

order_id	product_id	qty
1	2	4
2	3	3
3	4	4

p_product_id	o_product_id	product_name	order_id	qty
1	null	アジ	null	null
2	2	サバ	1	4
3	3	タコ	2	3
null	4	null	3	4

year	qty
2021	272
2022	309
2023	310

base_year	compare_year	base_qty	compare_qty	growth_rate_percent
2021	2022	272	309	113.6
2022	2023	309	310	100.32

base_year	compare_year	base_qty	compare_qty
2021	2021	272	272
2021	2022	272	309
2021	2023	272	310
2022	2021	309	272
2022	2022	309	309
2022	2023	309	310
2023	2021	310	272
2023	2022	310	309
2023	2023	310	310

product_id	qty	product_name
1	0	アジ
2	4	サバ
3	3	タコ

product_name	qty
アジ	10
サバ	20
タコ	30

product_name	qty
サバ	20
タコ	40
イカ	50

product_name	qty
アジ	10
サバ	20
タコ	30
サバ	20
タコ	40
イカ	50

product_name	qty
アジ	10
タコ	30
タコ	40
イカ	50

product_name	qty
サバ	20
サバ	20

product_name	qty
サバ	10
サバ	20

product_id	user_id
1	1
2	2
3	3
4	15000
4	35000

product_name	qty
サバ	20

product_name	qty
アジ	10
タコ	30

product_name	qty
タコ	40
イカ	50

GitHubで編集を提案

はじめに

学んだこと

テーブル結合（横方向につなぐ）

INNER JOIN（内部結合）

USING

LEFT OUTER JOIN（左外部結合）

RIGHT JOIN（右外部結合）

FULL JOIN（完全外部結合）

SELF JOIN（自己結合）

CROSS JOIN（交差結合）

NULL の扱い

IFNULL

COALESCE

テーブル集合演算

UNION（和集合）

補足 1. 集合演算における重複の考え方

補足 2. 集合演算をする際の注意点

INTERSECT（積集合）

EXCEPT（差集合）

仮想テーブル

WITH

ビュー

最後に

Discussion