😦

まだ sort して uniq してるの？

2021/03/23に公開

この記事の要点

※この記事は以下書籍の内容を参考に書いています。
書籍：「シェル芸」に効く！AWK処方箋

エンジニアであれば、ログ調査でセッション一覧を出力する時など
『多数ある要素から重複を排除する』シーンは多いかと思います。
私の身の回りではsortしてuniqしている人が多いように感じますが
awkのほうが便利で速いです。

awk^[1]はUNIXで開発されたプログラミング言語で、テキスト処理に長けています。
awkを使いこなせると、コマンドで出来ることがより"多く"なります（激寒）

awk '条件{命令}' 入力

awk sample

boomkun@zenn:~$ echo "test" | awk '$0=="test"{print "ok"}'
ok

何が起きているか分かりますでしょうか？
条件記述部$0=="test"が真であるため、命令部{print "ok"}が実行されたのです。
簡単な説明は以上として、今回覚えておきたいawkの前提知識が以下の３つです。

条件記述部が真(=1)の場合に実行する。

$0は行全体を指す

配列を使える

さっそくやってみましょう。

以下のようなhoge.txtというファイルが仮にあったとします。

hoge.txt

A A A
C C C
B B B
A A A
A B C
B B B
C C C
C B A

出てくる要素としてはAAA,BBB,CCC,ABC,CBAの5つ。
コマンドを用いて求める場合、sort,uniqだと

boomkun@zenn:~$ cat hoge.txt | sort | uniq
A A A
A B C
B B B
C B A
C C C

sortとuniqの代わりにawkを使うと

boomkun@zenn:~$ cat hoge.txt | awk '!a[$0]++{print}'
A A A
C C C
B B B
A B C
C B A

出てきた順にuniqされているのが分かるかと思います。

条件記述部の!a[$0]++の部分について深堀りしてみましょう。
aという配列に$0をぶち込み、返ってきた値を後置インクリメントしています。
つまり、『1度目は真、2度目以降は偽』となるため
最初に出てきた時のみ{print}アクションがおこります。

今回紹介したawkの重複排除!a[$0]++は応用も幅広くききます。

boomkun@zenn:~$ cat hoge.txt | awk 'a[$0]++{print}'
A A A
B B B
C C C

'a[$0]++ == X'

うまく説明できた気がしませんが、awkについての小ネタでした。
たまに業務につながることがあるので、シェル芸の問題を解くのは息抜きにオススメです。
なにより時系列が大事なセッション抜き出しで、『sortせずuniq』出来るのは
ログ調査などで大きな助けになるかもしれませんね。

脚注

出てきた順に uniq はできませんが、sort して uniq であれば sort -u で出来ます。

うわ恥ずかしい。知りませんでした…
ありがとうございます！