Open7

中国語固有の漢字を判定したいメモ

syoyosyoyo

旧字体

https://qiita.com/Saqoosha/items/927e9d6e77922ad9f08a

ただ, この場合 (の旧字体)は JIS 第二水準で以前日本語として有効な漢字である(S-JIS 変換で除去されない)

https://github.com/ikawaha/kanji/

で旧字体を新字体に変換もするとよいだろう.

ただ,

https://dictionary.sanseido-publ.co.jp/column/第124回-「図」と「圖」

人名用漢字には使えないが, 入国管理局正字としては使えるっぽいのでややこしい...

syoyosyoyo

手順まとめ

  • S-JIS 判定
  • 異体字正規化
  • 旧字体を新字体に変換

となるか.

LLM 用データセットとしての利用を考える場合, 文章によっては旧字体や異体字のままである必要があるものもある.

https://ja.wikipedia.org/wiki/山崎

山崎(やまざき、やまさき)は、日本語の名前の一つ。山﨑、山嵜と記す場合もある。

など.

2~3 センテンス内で, 上記のように異体字とそれに対応する漢字が存在する場合や, 異体字が人名 or 地名の場合は正規化しない, などとしたほうがいいカモ

安岡孝一安岡孝一

文字情報基盤に入ってるかどうか、というあたりもヒントになると思うのです。文字セットとしては、ちょっと大きいんですけどね。