😀

自然言語ライブラリGiNZAの最速レビュー

2019/04/03に公開

はじめに

リクルートや国立研究所が作ったという自然言語処理ライブラリ「GiNZA」を使ってみた。

リクルートのAI研究機関、国立国語研究所との共同研究成果を用いた日本語の自然言語処理ライブラリ「GiNZA」を公開
2019年04月02日
株式会社リクルート

出典:https://www.recruit.co.jp/newsroom/2019/0402_18331.html

いや、ほんとにこういうの待ってたんですよ。ガラパゴス諸島の日本語話者としては。MeCabは有名ですが、makeからはじまる環境ってのもね・・・。かと言ってMeCabラッパーつかうのも何かなーと。

Let's try!

まずはvenvでPython3の仮想環境を構築。仮想環境を使えばもとの環境は汚さずにすむ。

$ python3 -m venv venv

次に仮想環境をアクティベートする。これで仮想環境に入れる。 コンソールの頭に(venv)が出てきたら成功。

$ source venv/bin/activate
(venv) $

次にGiNZAのGetting Startを参考にGiNZAをインストールする。

(venv) $ pip install "https://github.com/megagonlabs/ginza/releases/download/v1.0.1/ja_ginza_nopn-1.0.1.tgz"

次にGiNZAのGetting Startを参考にコマンドラインツールを実行する。

(venv) $ python -m spacy.lang.ja_ginza.cli
Loading model 'ja_ginza_nopn'
mode is C
disabling sentence separator

入力待ちになるので日本語の文章次の元号は令和ですね。と入力してEnterを押す。

次の元号は令和ですね。
# text = 次の元号は令和ですね。
1       次      次      NOUN    名詞-普通名詞-一般      _       3       nmod    _       SpaceAfter=No|NP_B
2       の      の      ADP     助詞-格助詞     _       1       case    _       SpaceAfter=No
3       元号    元号    NOUN    名詞-普通名詞-一般      _       5       nsubj   _       SpaceAfter=No|NP_B
4       は      は      ADP     助詞-係助詞     _       3       case    _       SpaceAfter=No
5       令和    令和    PROPN   名詞-固有名詞-一般      _       5       root    _       SpaceAfter=No|NP_B
6       です    です    AUX     助動詞  _       5       cop     _       SpaceAfter=No
7       ね      ね      PART    助詞-終助詞     _       5       aux     _       SpaceAfter=No
8       。      。      PUNCT   補助記号-句点   _       5       punct   _       SpaceAfter=No

うまく解析できた。

もうちょっと実務的な文章を解析してみる。

元号が令和に変更されたあとで元号変換モジュールを改修したら、爆死した。
# text = 元号が令和に変更されたあとで元号変換モジュールを改修したら、爆死した。
1       元号    元号    NOUN    名詞-普通名詞-一般      _       5       nsubj   _       SpaceAfter=No|NP_B
2       が      が      ADP     助詞-格助詞     _       1       case    _       SpaceAfter=No
3       令和    令和    PROPN   名詞-固有名詞-一般      _       5       obl     _       SpaceAfter=No|NP_B
4       に      に      ADP     助詞-格助詞     _       3       case    _       SpaceAfter=No
5       変更    変更    VERB    名詞-普通名詞-サ変可能  _       9       acl     _       SpaceAfter=No
6       さ      為る    AUX     動詞-非自立可能 _       5       aux     _       SpaceAfter=No
7       れ      れる    AUX     助動詞  _       5       aux     _       SpaceAfter=No
8       た      た      AUX     助動詞  _       5       aux     _       SpaceAfter=No
9       あと    後      NOUN    名詞-普通名詞-副詞可能  _       15      nmod    _       SpaceAfter=No|NP_B
10      で      で      ADP     助詞-格助詞     _       9       case    _       SpaceAfter=No
11      元号    元号    NOUN    名詞-普通名詞-一般      _       13      compound        _       SpaceAfter=No|NP_B
12      変換    変換    NOUN    名詞-普通名詞-サ変可能  _       13      compound        _       SpaceAfter=No|NP_I
13      モジュール      モジュール      NOUN    名詞-普通名詞-一般      _       15      obj     _       SpaceAfter=No|NP_I
14      を      を      ADP     助詞-格助詞     _       13      case    _       SpaceAfter=No
15      改修    改修    VERB    名詞-普通名詞-サ変可能  _       19      dep     _       SpaceAfter=No
16      し      為る    AUX     動詞-非自立可能 _       15      aux     _       SpaceAfter=No
17      たら    た      AUX     助動詞  _       15      aux     _       SpaceAfter=No
18      、      、      PUNCT   補助記号-読点   _       15      punct   _       SpaceAfter=No
19      爆死    爆死    VERB    名詞-普通名詞-サ変可能  _       19      root    _       SpaceAfter=No
20      し      為る    AUX     動詞-非自立可能 _       19      aux     _       SpaceAfter=No
21      た      た      AUX     助動詞  _       19      aux     _       SpaceAfter=No
22      。      。      PUNCT   補助記号-句点   _       19      punct   _       SpaceAfter=No

うまく解析できた。

Discussion