🆗
【Python・PySparkで学ぶ!】チートシート【正規表現で扱う文字パターン35選!】
代表的な文字列パターン
- 
日付 (Date)
 
形式例
2025-02-10 (ISO 8601)
02/10/2025 (米国形式)
10.02.2025 (欧州形式)
- 規則
- 数字で構成され、年・月・日が含まれる
 - 区切りはハイフン -、スラッシュ /、ピリオド . など
 
 - 正規表現例
\d{4}[-/\.]\d{2}[-/\.]\d{2}
 
- 
メールアドレス (Email Address)
 
形式例
example@example.com
user.name+tag@domain.co.jp
- 規則
- ローカル部分(example)とドメイン部分(example.com)から構成
 - ローカル部分にはアルファベット、数字、ピリオド、ハイフン、アンダースコアなどが使用可能
 - ドメイン部分にはピリオド . で区切られたセグメントが必要
 
 - 正規表現例
[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}
 
- 
URL
 
形式例
https://www.example.com
- 規則
- プロトコル(http:// または https://)で始まり、ドメイン、パス、クエリパラメータを含む
 
 - 正規表現例
https?://[a-zA-Z0-9.-]+(?:/[^\s]*)?
 
- 
HTMLタグ (HTML Tags)
 
形式例
<h1>Title</h1>
<a href="https://example.com">Link</a>
- 規則
- 開始タグ <タグ名> と閉じタグ </タグ名> で構成
 - 属性(例: href="https://example.com")を含むこともある
 
 - 正規表現例
<([a-zA-Z][a-zA-Z0-9]*)\b[^>]*>(.*?)<\/\1>
 
- 
電話番号 (Phone Number)
 
形式例
03-1234-5678(日本)
+1-800-123-4567(国際)
- 規則
- 国際番号は + で始まる
 - 数字のグループをハイフン - やスペースで区切る
 
 - 正規表現例
(?:\+?\d{1,3})?[-.\s]?\(?\d{1,4}\)?[-.\s]?\d{1,4}[-.\s]?\d{1,4}
 
- 
郵便番号 (Postal Code)
 
形式例
100-0001(日本)
90210(アメリカ)
SW1A 1AA(イギリス)
- 規則
- 国によって形式が異なる
 - 日本は 3桁-4桁、米国は 5桁 または 5桁-4桁
 - 英国はアルファベット・数字混在
 
 - 正規表現例
- 
\d{3}-\d{4}# 日本 - 
\d{5}(?:-\d{4})?# アメリカ - 
[A-Z]{1,2}\d[A-Z\d]? \d[A-Z]{2}# イギリス 
 - 
 
その他の文字列パターン
- 
ISBN(書籍コード): 978-3-16-148410-0
 
- 構成: 13桁の数字(EAN-13形式)
- ハイフンで分割
 - 各部分:978 (または 979) プレフィックス、出版国、出版社、書籍番号、チェックディジット
 
 
- 
MACアドレス: 00:1A:2B:3C:4D:5E
 
- 構成: 6つの16進数ブロック
 - 区切り: コロン : またはハイフン -
- 各ブロックは2桁(0-9、A-F)
 
 
- 
IPv4アドレス: 192.168.1.1
 
- 構成: 4つの10進数ブロック(0〜255)
 - 区切り: ドット .
 
- 
IPv6アドレス: 2001:0db8:85a3:0000:0000:8a2e:0370:7334
 
- 構成: 8つの16進数ブロック
 - 区切り: コロン :
- 省略可能なゼロ (::)
 
 
- 
クレジットカード番号: 1234 5678 9876 5432
 
- 構成: 16桁(Visa、Mastercardなど)
 - 区切り: 空白または連続数字
 
- 
身分証番号(マイナンバー): 1234-5678-9012
 
- 構成: 4桁-4桁-4桁の12桁構成
 - 区切り: ハイフン -
 
- 
Twitterハンドル: @username
 
- 構成: @で始まり、英数字または _
 - 長さ: 15文字以内
 
- 
YouTube動画ID: dQw4w9WgXcQ
 
- 構成: 11文字の英数字
 
- 
バーコード(EAN-13形式): 4006381333931
 
- 構成: 13桁の数字
 
- 
GPS座標: 35.6895, 139.6917
 
- 構成: 緯度、経度の組み合わせ
 - 区切り: カンマ ,
 
- 
時間(24時間形式): 14:30:59
 
- 構成: HH:mm:ss(0〜23、0〜59)
 
- 
時間(12時間形式): 02:30 PM
 
- 構成: hh:mm AM/PM
 
- 
通貨(記号付き): $100.50
 
- 構成: 通貨記号と金額(小数点以下2桁)
 
- 
ハッシュ(SHA256): a3f6f06c7ae6d5b23d9e1fc8e...
 
- 構成: 64文字の16進数(0-9, a-f)
 
- 
郵便番号(日本): 100-0001
 
- 構成: 7桁の数字
 - 区切り: ハイフン -
 
- 
色コード(RGB形式): #FF5733
 
- 構成: # + 6桁の16進数
 
- 
HTMLエンティティ: & < >
 
- 構成: &で始まり;で終わる文字列
 
- 
Windowsファイルパス: C:\Users\Documents\file.txt
 
- 構成: ドライブ名 + バックスラッシュ \
 
- 
Unixファイルパス: /home/user/file.txt
 
- 構成: スラッシュ / で区切る階層構造
 
- 
日時(ISO8601形式): 2025-02-10T14:30:00Z
 
- 構成: YYYY-MM-DDTHH:mm:ssZ
 
- 
クエリパラメータ付きURL: https://example.com/?id=123&name=foo
 
- 構成: ? 以降に key=value ペア
 - 正規表現パターン: [a-zA-Z]+
- 英字の連続
 
 
- 
日本の銀行口座番号: 0123456
 
- 構成: 7桁の数字
 
- 
ファイル拡張子付きファイル名: report.pdf
 
- 構成: 任意文字列 + . + 拡張子
 
- 
ソフトウェアバージョン番号: 1.2.3
 
- 構成: 整数.整数.整数
 
- 
Gitコミットハッシュ: 9b1c3b57e35e6d05a1a5ef8f6d10c7765
 
- 構成: 40文字の16進数
 
- 
クーポンコード: SAVE2025
 
- 構成: 英数字の組み合わせ
 
- 
記号付きテンプレートタグ: {% if value == 1 %}
 
- 構成: {% から %}
 
- 
チケット番号: TCK-102345
 
- 構成: プレフィックス TCK- + 数字
 
- 
ローマ字名: Taro Yamada
 
- 構成: 英字の単語をスペースで区切る
 
Discussion