Open4
Python から扱えるっぽい形態素解析ライブラリ
MeCab になぜかいいイメージがないので他のライブラリを探してみる
Janome
依存ライブラリなしで簡単につかえるらしい
公式サイトよりサンプル引用
pip install janome
例
from janome.tokenizer import Tokenizer
t = Tokenizer()
for token in t.tokenize('すもももももももものうち'):
print(token)
すもも 名詞,一般,,,,,すもも,スモモ,スモモ
も 助詞,係助詞,,,,,も,モ,モ
もも 名詞,一般,,,,,もも,モモ,モモ
も 助詞,係助詞,,,,,も,モ,モ
もも 名詞,一般,,,,,もも,モモ,モモ
の 助詞,連体化,,,,,の,ノ,ノ
うち 名詞,非自立,副詞可能,,,*,うち,ウチ,ウチ
Windows なら print のとこを
print(str(token).decode('utf8'))
にしないといけないかもらしい
関連記事
sudachi.rs
Sudachi (こちらは Java) の Rust 実装らしい
pip install --upgrade 'sudachipy>=0.6.2'
とすると、sudachi.py として扱うことができる。
Sudachi.py について:
関連記事:
Vibrato
これ自体は Rust の形態素解析。
python-vibrato というラッパーライブラリを使って Python から扱える。
pip install vibrato
関連記事: