Open19

NEologdの更新が止まっている問題

Miwa / EnsanMiwa / Ensan

パッと思いついたのはEdict/JMDictを使う方法

http://ftp.edrdg.org/pub/Nihongo/00INDEX.html

Miwa / EnsanMiwa / Ensan

これは半手動でメンテされていたはずで、今DLしてみたら2022年が最終更新、「オミクロン株」「黙食」とかは入っていた。

Miwa / EnsanMiwa / Ensan

差分が作れれば新語の追加もできそうだけど、残念ながら差分管理がされていない。2020年に一度DLしたものがあるのでそれと比較すれば無理ではないかもしれないけど。

Miwa / EnsanMiwa / Ensan

あと、申し訳ないけどあまり精度が高くない印象もある。ルビの間違いがやや多い。(とても有難いですが)

Miwa / EnsanMiwa / Ensan

ざっくり2020版とdiffを取ってみたところ、10000個くらいの単語が追加されていた。当たり前だけどメンテナンスの結果も含まれるので新語抽出にはならない(それはそう)

Miwa / EnsanMiwa / Ensan

上記精度が高くないは誤解でした。
こちらの処理の問題で正しくデータを扱えていなかった面があり、それを除けばかなり高精度。contributeも出来るので上流への還元も割と出来る。
ただ、プロジェクトの趣旨的に固有名詞には弱いのが難点かも。

Miwa / EnsanMiwa / Ensan

クローラを自前で用意する方向に進むのはなしではないが、多分コストを賄えない。

Miwa / EnsanMiwa / Ensan
Miwa / EnsanMiwa / Ensan

最後のリリースは2021/12で、半年に一回くらいリリースがあるっぽい。

Miwa / EnsanMiwa / Ensan

azooKeyは残念ながら品詞体系依存になっているので、ちょっと辛いな

Miwa / EnsanMiwa / Ensan

Unidic品詞体系自体は以前軽く調べたので大筋わかるが、細かいところのマッピングが可能なレベルなのかがわからない。
https://clrd.ninjal.ac.jp/unidic/UNIDIC_manual.pdf

Miwa / EnsanMiwa / Ensan

Unidicのサイト、移設に伴ってあちこちリンク切れになっていて本当にひどい

Miwa / EnsanMiwa / Ensan

id単位で見ると20000通りくらいあるのか、1300しかないIPADicとはえらい違いだ