中国語固有の漢字を判定したいメモ

背景

LLM 用日本語データセットで, 中国語の文章(中国語固有の漢字)を除去したい.

漢字は CJK で統合されているため, UTF8 コードの範囲指定で判定は簡単にはできない

とりあえずは S-JIS 変換させるのが楽であろう

もしくは常用漢字かどうかで判断か?

ただ, この場合 圖(図の旧字体)は JIS 第二水準で以前日本語として有効な漢字である(S-JIS 変換で除去されない)

で旧字体を新字体に変換もするとよいだろう.

ただ, 圖は

人名用漢字には使えないが, 入国管理局正字としては使えるっぽいのでややこしい...

山﨑 の「たつさき」など. これも S-JIS 判定では残ってしまうかもしれない.

で異体字正規化するとよいだろう

となるか.

LLM 用データセットとしての利用を考える場合, 文章によっては旧字体や異体字のままである必要があるものもある.

山崎（やまざき、やまさき）は、日本語の名前の一つ。山﨑、山嵜と記す場合もある。

など.

2~3 センテンス内で, 上記のように異体字とそれに対応する漢字が存在する場合や, 異体字が人名 or 地名の場合は正規化しない, などとしたほうがいいカモ

文字情報基盤に入ってるかどうか、というあたりもヒントになると思うのです。文字セットとしては、ちょっと大きいんですけどね。

🙏