Open19
NEologdの更新が止まっている問題
NEologdの更新が過去二年ほど止まっており、新語の補給がしづらい状態が続いている。
パッと思いついたのはEdict/JMDictを使う方法
これは半手動でメンテされていたはずで、今DLしてみたら2022年が最終更新、「オミクロン株」「黙食」とかは入っていた。
差分が作れれば新語の追加もできそうだけど、残念ながら差分管理がされていない。2020年に一度DLしたものがあるのでそれと比較すれば無理ではないかもしれないけど。
あと、申し訳ないけどあまり精度が高くない印象もある。ルビの間違いがやや多い。(とても有難いですが)
ざっくり2020版とdiffを取ってみたところ、10000個くらいの単語が追加されていた。当たり前だけどメンテナンスの結果も含まれるので新語抽出にはならない(それはそう)
上記精度が高くないは誤解でした。
こちらの処理の問題で正しくデータを扱えていなかった面があり、それを除けばかなり高精度。contributeも出来るので上流への還元も割と出来る。
ただ、プロジェクトの趣旨的に固有名詞には弱いのが難点かも。
クローラを自前で用意する方向に進むのはなしではないが、多分コストを賄えない。
Sudachi辞書
Unidic品詞体系自体は以前軽く調べたので大筋わかるが、細かいところのマッピングが可能なレベルなのかがわからない。
Unidic 2.1.2の品詞体系の勉強を始めた。IPADicのやつに比べて好み