Open7
中国語固有の漢字を判定したいメモ
背景
LLM 用日本語データセットで, 中国語の文章(中国語固有の漢字)を除去したい.
漢字は CJK で統合されているため, UTF8 コードの範囲指定で判定は簡単にはできない
とりあえずは S-JIS 変換させるのが楽であろう
もしくは常用漢字かどうかで判断か?
旧字体
ただ, この場合 圖
(図
の旧字体)は JIS 第二水準で以前日本語として有効な漢字である(S-JIS 変換で除去されない)
で旧字体を新字体に変換もするとよいだろう.
ただ, 圖
は
人名用漢字には使えないが, 入国管理局正字としては使えるっぽいのでややこしい...
異体字
山﨑
の「たつさき」など. これも S-JIS 判定では残ってしまうかもしれない.
で異体字正規化するとよいだろう
手順まとめ
- S-JIS 判定
- 異体字正規化
- 旧字体を新字体に変換
となるか.
LLM 用データセットとしての利用を考える場合, 文章によっては旧字体や異体字のままである必要があるものもある.
山崎(やまざき、やまさき)は、日本語の名前の一つ。山﨑、山嵜と記す場合もある。
など.
2~3 センテンス内で, 上記のように異体字とそれに対応する漢字が存在する場合や, 異体字が人名 or 地名の場合は正規化しない, などとしたほうがいいカモ
文字情報基盤に入ってるかどうか、というあたりもヒントになると思うのです。文字セットとしては、ちょっと大きいんですけどね。