🚀

【AI_11日目】自然言語処理_1冊目

2024/10/04に公開

こんにちは投資ロウトです。

 背景AI開発ができるために自然言語処理について理解を深めていきます。
以下の記事で、まず初心者が読むべき2選が書かれているので、そちらをやっていきたいと思います。
https://nlpillustration.tech/?p=4419#rtoc-7

 コンピュータで日本語を処理する・形態素解析ツール・・・日本語を単語の意味ごとに区切って、それぞれの意味ごとに読み方や品詞情報を付与するツール(Janomeなど)
・ネガポジ分析を行うためのデータ・・・日本語評価極性辞書でダウンロード可能。
・著作権が切れているデータは青空文庫で無料で入手ができる。
・コンピュータで単語を扱う場合は、単語をベクトルとして扱うのが一般的で「Word2Vec」という。
・モデル・・・入力値を受け取って、計算や評価をして返却値を出すもの。
・コサイン類似度・・・ベクトル同士が近い方向かを示すものとしての指標として用いられ、単語の似ている度合いが分かる。
・gensim・・・テキストデータを与えると、Word2Vecのモデルを作ってくれるライブラリ。
・今回の本のAI・・・大量の文章から近い文字は近い意味を持つものであり、入れ替えて文字が成立するものは、近い意味であるということを繰り返して経験を深めていっているものとのこと。
・Word2Vec・・・最大の弱点は対義語と言われているとのこと。またWord2Vecで演算できる単語は単語リストに登録されているものだけ。

 大量の辞書データ・国立国語研究所
https://clrd.ninjal.ac.jp/bccwj/fee.html
・Unidic
https://clrd.ninjal.ac.jp/unidic/about_unidic.html
・IPA辞書
https://www.jnlp.org/nlp/形態素解析/ipadic
・BCCWJ
https://clrd.ninjal.ac.jp/bccwj/
と以上で今回の本の学習を終えたいと思います。焦らずコツコツ自分のペースで頑張っていきたいと思います。ご精読ありがとうございました。

背景

コンピュータで日本語を処理する

大量の辞書データ

Discussion