👀

正規表現の先読み・後読み

2022/08/21に公開

2件

正規表現

tech

正規表現の「先読み（lookahead）」「後読み（lookbehind）」について紹介します。

正規表現の「位置へのマッチ」

正規表現は、文字列のパターンマッチに使われます。たとえば [0-9]{4} は数字 4 つが並ぶ文字列にマッチする表現です。

多くの正規表現は「文字列」にマッチしますが、「文字列」ではなく「位置」にマッチする表現があります。これは、アンカーと呼ばれます。また、長さ 0 の文字列にマッチすると考えて、ゼロ幅アサーションとも呼ばれます。

アンカーの例として、^（先頭）$（末尾）\b（単語の境界）などがあります。

\bcat\b

この例では、cat にはマッチします。一方、category や concat は cat を含みますが前後が単語の境界になっていないためマッチしません。

先読み

先読み（lookahead）は、位置にマッチする記法の一種です。位置の指定に正規表現を使います。(?= と ) で囲む記法となっています。

a(?=..d)

これは、a の次に 任意の2文字＋d が来る場合に限り、a にマッチする、という正規表現です。abracadabra という文字列の中には a がいくつかあります。このうち、先読みの「任意の2文字＋d が来る」という条件に当てはまるのはひとつだけです。

後読み

後読み（lookbehind）は先読みと似ています。

(?=regex) : 先読み。次に regex がくる位置にマッチ。
(?<=regex) : 後読み。前に regex がくる位置にマッチ。

(?<=<em>)cat(?=</em>)

これは、後読みと先読みを両方使って、cat が <em> と </em> で囲まれている場合にのみマッチします。

否定先読み・否定後読み

先読みと後読みのバリエーションとして以下のものがあります。

(?!regex) : 否定先読み。次に regex がこない位置にマッチ。
(?<!regex) : 否定後読み。前に regex がこない位置にマッチ。

(?!2022)\d{4}

\d{4} は数字 4 つの列にマッチしますが、否定先読み (?!2022) は 2022 の前の位置にはマッチしません。そのため、全体として (?!2022)\d{4} は 2022 にはマッチしません。

先読みが便利な場合(1)

先読みが有益な場合はどのような場合でしょうか。実のところ、先読みを使わないと書けないパターンというものはありません。

しかし、先読みを使うと楽に書けるパターンがあります。そのうちのひとつが、以下のパターンです。

(?=.*hoge.*)(?=.*fuga.*)(?=.*piyo.*).*

これは、.* という正規表現の前に 3 つの先読みがあります。この 3 つの先読みは、ある特定の位置以降の文字列が .*hoge.* / .*fuga.* / .*piyo.* の 3 つの正規表現すべてにマッチすることを要求しています。そのため、全体として hoge / fuga / piyo の 3 つを含む文字列にマッチする正規表現となります。

別の言い方をすると、先読みを使うと複数の正規表現の AND 演算が書ける、ということになります。

なお、hoge / fuga / piyo の 3 つを含む文字列にマッチする正規表現として、以下のものはどうでしょうか。

.*hoge.*fuga.*piyo.*

これは、3 つの文字列がこの順番どおりに出てきたときのみマッチします。どの順番で出てきても良いようにするには、以下のようになります（見やすくするため途中で改行を入れています）。

.*hoge.*fuga.*piyo.*|.*hoge.*piyo.*fuga.*|
.*fuga.*piyo.*hoge.*|.*fuga.*hoge.*piyo.*|
.*piyo.*hoge.*fuga.*|.*piyo.*fuga.*hoge.*

長い正規表現は読みづらく感じることが多いです。同じ意味の正規表現が、先読みを知っていれば (?=.*hoge.*)(?=.*fuga.*)(?=.*piyo.*).* と短く書けます。

先読みが便利な場合(2)

もうひとつ、先読みが便利なパターンを挙げます。

数字が何個か並んでいる文字列に対して、3 桁ごとにカンマを挿入するコードを、正規表現で書いてみます。ここではプログラミング言語に Perl を使います。

#!/usr/bin/perl

$text = '12345678';
$text =~ s/(?<=\d)(?=(\d\d\d)+$)/,/g;
print $text;

実行すると、確かに 12345678 が 12,345,678 に置換されています。しかし、なぜこのコードでうまくいくのでしょうか。詳しく見てみましょう。

(?<=\d)(?=(\d\d\d)+$) は位置にマッチする正規表現です。(?<=\d) なので直前が数字であり、(?=(\d\d\d)+$) なので直後から数字 3 つの繰り返し（つまり、数字 6 つなど数字が 3 の倍数個）で文字列が終わる、という位置です。12345678 に対しては、2 と 3 の間、5 と 6 の間、の 2 箇所にマッチします。

位置にマッチする正規表現は、「長さ 0 の文字列」にマッチする正規表現です。マッチした箇所を , という文字列に置換するという処理は、該当の位置に , を挿入する処理と同じです。したがって、2 と 3 の間、5 と 6 の間に , が挿入されます。

先読みを知っていると、このようにスマートなコードが書けます。

注意点

先読みや後読みは、正規表現の歴史の中では比較的新しい機能です。そのため、言語や環境によってはサポートされていない場合があります。ご注意ください。

参考文献

新屋良磨，鈴木勇介，高田謙　著、正規表現技術入門――最新エンジン実装と理論的背景、技術評論社、2015。
Jeffrey E.F. Friedl　著、株式会社ロングテール／長尾高弘　訳、詳説正規表現第3版、オライリー・ジャパン、2008。
Jan Goyvaerts, Steven Levithan　著、長尾高弘　訳、正規表現クックブック、オライリー・ジャパン、2010。

便利ツール

Expressions : 正規表現を簡単に試せる macOS アプリ。本記事の正規表現のスクリーンショットはこのアプリのもの。
CodeRunner : 各種プログラミング言語を簡単に動かせる macOS アプリ。本記事の Perl コードのスクリーンショットはこのアプリのもの。

補足

この記事は、KyotoLT Online 第27回で発表した内容（正規表現の少し進んだ機能）を記事の形に書き直したものです。

GitHubで編集を提案

Discussion

nanto_vi

解説ありがとうございます。ツールまで紹介していただけるのは試行しやすくて助かります。

余談ですが、個人的にはどちらが「先」でどちらが「後」か、少し混乱します。

同感です。個人的にはlookbehindには「戻り読み」という訳語が好みなのですが、採用例があまり多くありません。ぱっと探して見つかるのは正規表現ライブラリ「鬼車」のドキュメントやPHPのマニュアルぐらいです。

(?=.*hoge.*)(?=.*fuga.*)(?=.*piyo.*).*

この正規表現パターンですが、hogeの直前に最長一致.*を使うと、いったん文字列（または行）の末尾まで読み込み、そこから戻ってhogeを探すことになります。最短一致.*?を使う（hogeが現れたらそこで探索を打ち切る）ほうが、効率的な正規表現パターンになります。

use strict;
use warnings;
use Benchmark qw(cmpthese);

my $text = join 'a' x 1000, 'hoge', 'fuga', 'piyo';

cmpthese(-1, {
    '.*hoge.*' => sub {
        my $v = $text =~ m/(?=.*hoge.*)(?=.*fuga.*)(?=.*piyo.*).*/;
    },
    '.*?hoge' => sub {
        my $v = $text =~ m/(?=.*?hoge)(?=.*?fuga)(?=.*?piyo).*/;
    },
});
# Perl 5.36.0での実行結果:
#               Rate .*hoge.*  .*?hoge
# .*hoge.*  133980/s       --     -94%
# .*?hoge  2096352/s    1465%       --

USAMI Kosuke

コメントありがとうございます。

個人的にはlookbehindには「戻り読み」という訳語が好み

なるほど、「戻り読み」いいですね。採用事例もあるとのこと、情報ありがとうございます。

最短一致.*?を使う（hogeが現れたらそこで探索を打ち切る）ほうが、効率的な正規表現パターンになります。

指摘ありがとうございます。パフォーマンス比較もしていただいて参考になります。後ほど、本文にも追記しようと思います。