Open7
テキスト(主に日本語)の正規化処理を考える

Unicode Normalization Form C(NFC)

CJK部首/康熙部首を置換

不可視文字(ZWJ/ZWNJなど)の削除(ただし絵文字に注意)
異体字セレクターの削除も

現時点だと、Windows 付属のicu.dllを使っている場合は Unicode 13.0か?
ICU 68.2 includes Unicode 13.0 and CLDR 38.1.

全角英数の半角化、半角かなの全角化

Shift JIS ↔ MS932のブレを統一

記号等の結合
... |
… |
!? |
⁉ |
!! |
‼ |