Open7
テキスト(主に日本語)の正規化処理を考える
Unicode Normalization Form C(NFC)
CJK部首/康熙部首を置換
不可視文字(ZWJ/ZWNJなど)の削除(ただし絵文字に注意)
異体字セレクターの削除も
現時点だと、Windows 付属のicu.dllを使っている場合は Unicode 13.0か?
ICU 68.2 includes Unicode 13.0 and CLDR 38.1.
全角英数の半角化、半角かなの全角化
Shift JIS ↔ MS932のブレを統一
記号等の結合
... |
… |
!? |
⁉ |
!! |
‼ |