はじめに

SQLでCOUNTを使う機会は結構ある。その中でも、以下の挙動について理解がふんわりしていたので調べる。

環境

PostgreSQL

集約関数は、複数の入力行から1つの結果を出力する。種類としては、以下のようなものが存在する

ALLはデフォルトとなるため、省略しても変わらない。
この式では、指定された式が非NULLを返す入力行すべてに集約を適応する。

この式では、指定された式が非NULLを返す重複しない入力行すべてに集約を適応する。

この式では、NULLか非NULLかに関わらず、すべての入力行に対して1回ずつ集約を適応する。
入力値が指定されていない(columnが指定されてないと読み替えていい？)ため、一般的にはCOUNTでのみ役に立つらしい。

集約式の挙動を踏まえ、COUNTの例を考える。
テーブル例として、以下のようなテーブルで考える。

table_name=work

一般的な列名を指定するパターン。この場合、対象列のNULLでない値を数える。

select count(name) from work

DISTINCTを指定するパターン。対象列の重複でなく、NULLでない値を数える。

select count(distinct name) from work

行数を数える。すべてのブロックを数えるため、データ量やindexの関係で時間が膨らむことも多いらしい。
not null制約をつけた行があれば、そちれで代替も検討したい。

select * from work

ちょっとした応用。集約関数内で評価式を適応することで、指定した値の数をgroup byなどしなくても数えられる。

select count(name = 'taro' or null)

上記では、nameカラムがtaroの行を数えることができる。
or nullの部分については、SQLの論理演算子の特性を活かしている。

name = 'taro'となる行については、orの左側がtrueとなる。name != 'taro'となる行については、orの左側がfalseとなる。
そのため、以下となり、結果としては評価式がtrueとなるものの数をカウントできる。

この部分をよくわからず、count(name = 'taro')とか書いていた。
この場合、式結果がfalseでもCOUNT対象となるため、結果としてはNULL以外のすべての行数をカウントすることなる。count(name)と同じ結果。