㊙️
【kanjiconv】【アップデート】Unidic & カスタム辞書対応(「漢字」→「かな/ローマ字」変換)
はじめに
こちらは
【kanjiconv】固有名詞にも対応した「漢字」→「かな/ローマ字」Python変換ライブラリ
のアップデートに関する記事です。
GitHubページ
概要
- 【kanjiconv】のバージョンアップにより、Unidicとカスタム辞書に対応しました。
- Sudachiの辞書で対応されていない漢字の変換が可能になりました。
インストール
pip install -U kanjiconv
Unidicへの対応
- Unidicの辞書を使用することで、Sudachiの辞書にない漢字の変換が可能になります。
- 例えば以前のバージョンでは「激を飛ばす」の変換では「激」->「げき」の変換が不可能でしたが、Unidicを使用することで正しくひらがなへ変換できるようになりました。
from kanjiconv import KanjiConv
text = "激を飛ばす"
kanji_conv = KanjiConv(separator="", use_unidic=True)
kanji_conv.to_hiragana(text)
# 出力結果
# げきをとばす
カスタム辞書への対応
- カスタム辞書を使用することで、Sudachi辞書やUnidicにない漢字の変換が可能になります。
- 例えばSudachi辞書では「重複」の読みは「ちょうふく」ですが、カスタム辞書を設定することにより「重複」を「じゅうふく」と読み替えることができます。
from kanjiconv import KanjiConv
text = "重複"
kanji_conv = KanjiConv(separator="", use_custom_readings=True)
kanji_conv.custom_readings = {
"compound": {
"重複": "じゅうふく"
}
}
kanji_conv.to_hiragana(text)
# 出力結果
# じゅうふく
まとめ
- Unidicとカスタム辞書の導入により、Sudachi辞書では対応できなかった漢字の変換が可能になりました。
- 今後もissuesやPRを通じて、アップデートをしていくので何かリクエストがあればいただけるとありがたいです。
Discussion