🆗

【Python・PySparkで学ぶ!】チートシート【正規表現で扱う文字パターン35選!】

2025/02/26に公開

代表的な文字列パターン

  1. 日付 (Date)

形式例
2025-02-10 (ISO 8601)
02/10/2025 (米国形式)
10.02.2025 (欧州形式)
  • 規則
    • 数字で構成され、年・月・日が含まれる
    • 区切りはハイフン -、スラッシュ /、ピリオド . など
  • 正規表現例
    • \d{4}[-/\.]\d{2}[-/\.]\d{2}
  1. メールアドレス (Email Address)

形式例
example@example.com
user.name+tag@domain.co.jp
  • 規則
    • ローカル部分(example)とドメイン部分(example.com)から構成
    • ローカル部分にはアルファベット、数字、ピリオド、ハイフン、アンダースコアなどが使用可能
    • ドメイン部分にはピリオド . で区切られたセグメントが必要
  • 正規表現例
    • [a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}
  1. URL

形式例
https://www.example.com
  • 規則
    • プロトコル(http:// または https://)で始まり、ドメイン、パス、クエリパラメータを含む
  • 正規表現例
    • https?://[a-zA-Z0-9.-]+(?:/[^\s]*)?
  1. HTMLタグ (HTML Tags)

形式例
<h1>Title</h1>
<a href="https://example.com">Link</a>
  • 規則
    • 開始タグ <タグ名> と閉じタグ </タグ名> で構成
    • 属性(例: href="https://example.com")を含むこともある
  • 正規表現例
    • <([a-zA-Z][a-zA-Z0-9]*)\b[^>]*>(.*?)<\/\1>
  1. 電話番号 (Phone Number)

形式例
03-1234-5678(日本)
+1-800-123-4567(国際)
  • 規則
    • 国際番号は + で始まる
    • 数字のグループをハイフン - やスペースで区切る
  • 正規表現例
    • (?:\+?\d{1,3})?[-.\s]?\(?\d{1,4}\)?[-.\s]?\d{1,4}[-.\s]?\d{1,4}
  1. 郵便番号 (Postal Code)

形式例
100-0001(日本)
90210(アメリカ)
SW1A 1AA(イギリス)
  • 規則
    • 国によって形式が異なる
    • 日本は 3桁-4桁、米国は 5桁 または 5桁-4桁
    • 英国はアルファベット・数字混在
  • 正規表現例
    • \d{3}-\d{4} # 日本
    • \d{5}(?:-\d{4})? # アメリカ
    • [A-Z]{1,2}\d[A-Z\d]? \d[A-Z]{2} # イギリス

その他の文字列パターン

  1. ISBN(書籍コード): 978-3-16-148410-0

  • 構成: 13桁の数字(EAN-13形式)
    • ハイフンで分割
    • 各部分:978 (または 979) プレフィックス、出版国、出版社、書籍番号、チェックディジット
  1. MACアドレス: 00:1A:2B:3C:4D:5E

  • 構成: 6つの16進数ブロック
  • 区切り: コロン : またはハイフン -
    • 各ブロックは2桁(0-9、A-F)
  1. IPv4アドレス: 192.168.1.1

  • 構成: 4つの10進数ブロック(0〜255)
  • 区切り: ドット .
  1. IPv6アドレス: 2001:0db8:85a3:0000:0000:8a2e:0370:7334

  • 構成: 8つの16進数ブロック
  • 区切り: コロン :
    • 省略可能なゼロ (::)
  1. クレジットカード番号: 1234 5678 9876 5432

  • 構成: 16桁(Visa、Mastercardなど)
  • 区切り: 空白または連続数字
  1. 身分証番号(マイナンバー): 1234-5678-9012

  • 構成: 4桁-4桁-4桁の12桁構成
  • 区切り: ハイフン -
  1. Twitterハンドル: @username

  • 構成: @で始まり、英数字または _
  • 長さ: 15文字以内
  1. YouTube動画ID: dQw4w9WgXcQ

  • 構成: 11文字の英数字
  1. バーコード(EAN-13形式): 4006381333931

  • 構成: 13桁の数字
  1. GPS座標: 35.6895, 139.6917

  • 構成: 緯度、経度の組み合わせ
  • 区切り: カンマ ,
  1. 時間(24時間形式): 14:30:59

  • 構成: HH:mm:ss(0〜23、0〜59)
  1. 時間(12時間形式): 02:30 PM

  • 構成: hh:mm AM/PM
  1. 通貨(記号付き): $100.50

  • 構成: 通貨記号と金額(小数点以下2桁)
  1. ハッシュ(SHA256): a3f6f06c7ae6d5b23d9e1fc8e...

  • 構成: 64文字の16進数(0-9, a-f)
  1. 郵便番号(日本): 100-0001

  • 構成: 7桁の数字
  • 区切り: ハイフン -
  1. 色コード(RGB形式): #FF5733

  • 構成: # + 6桁の16進数
  1. HTMLエンティティ: & < >

  • 構成: &で始まり;で終わる文字列
  1. Windowsファイルパス: C:\Users\Documents\file.txt

  • 構成: ドライブ名 + バックスラッシュ \
  1. Unixファイルパス: /home/user/file.txt

  • 構成: スラッシュ / で区切る階層構造
  1. 日時(ISO8601形式): 2025-02-10T14:30:00Z

  • 構成: YYYY-MM-DDTHH:mm:ssZ
  1. クエリパラメータ付きURL: https://example.com/?id=123&name=foo

  • 構成: ? 以降に key=value ペア
  • 正規表現パターン: [a-zA-Z]+
    • 英字の連続
  1. 日本の銀行口座番号: 0123456

  • 構成: 7桁の数字
  1. ファイル拡張子付きファイル名: report.pdf

  • 構成: 任意文字列 + . + 拡張子
  1. ソフトウェアバージョン番号: 1.2.3

  • 構成: 整数.整数.整数
  1. Gitコミットハッシュ: 9b1c3b57e35e6d05a1a5ef8f6d10c7765

  • 構成: 40文字の16進数
  1. クーポンコード: SAVE2025

  • 構成: 英数字の組み合わせ
  1. 記号付きテンプレートタグ: {% if value == 1 %}

  • 構成: {% から %}
  1. チケット番号: TCK-102345

  • 構成: プレフィックス TCK- + 数字
  1. ローマ字名: Taro Yamada

  • 構成: 英字の単語をスペースで区切る

Discussion