【AI_11日目_2回目】自然言語処理_2冊目

2024/10/04に公開

こんにちは投資ロウトです。

背景

AI開発ができるために自然言語処理について理解を深めていきます。

以下の記事で、まず初心者が読むべき2選が書かれているので、そちらをやっていきたいと思います。

https://nlpillustration.tech/?p=4419#rtoc-7

進捗状況

少しずつ進めていっていますが、現在の進捗は以下になっています。

①要件定義:1冊
②設計:1冊
③システムビジネススキル:3冊 + 1冊目(keycloakが進行中(未マスト))
④インフラ:3冊
⑤フロントエンド:0冊、1冊(TailwindCSSが進行中(未マスト))
⑥AI:2冊
⑦テスト:0冊(単体テストが進行中)

自然言語処理関連サービス

・日本語入力ソフトウェア・・・「かな漢字変換」

・web上の自動翻訳・・・「機械翻訳」

・web検索・・・「Web検索エンジン」

自然言語処理

・自然言語・・・自分たちが使っている日本語などの言語のこと。

【自然言語以外】
・HTML, XML・・・マークアップ言語
・C, Java, Python・・・プログラミング言語

・自然言語の特徴・・・コンピュータ言語のように解釈が一意でないこと。

・自然言語処理が生まれたのは・・・人間の言葉を理解できれば、便利なサービスができるということで生まれた。

自然言語の応用

・日本語入力ソフト・・・Windowsの「MS-IME」、Macの「JapaneseIM」、ATOK、Google日本語入力などがあり、ユーザー辞書、学習、予測入力、入力支援などの機能を搭載。

・機械翻訳・・・翻訳メモリという仕組みもあり、過去に翻訳した文章を対訳としてデータベースに保存をし、技術マニュアルや特許のような決まった言い回しの多い翻訳に威力を発揮。

・検索エンジン・・・検索対象が数億や、キーワードがあっても数百ページがヒットする中で、ランキングづけを行う。

・対話システム・・・人間とコンピュータの対話を目指したもの。AppleではSiri、NTTドコモでは喋ってコンシェルなどがある。

・質問応答システム・・・以下の流れで処理を行う。
①質問解析
②情報検索
③情報抽出
④回答選択

Watsonでは、ウェブや百科事典、書籍から2億ページの膨大な知識から、2880個のプロセッサで数秒で検索から回答まで行っていたとのこと。

関連分野

・人工知能・・・コンピュータで人間のような知能を実現する学問。

・言語学・・・人間の言語そのものを明らかにする学問。

・計算言語学・・・統計や論理などの計算手法を利用して自然言語をモデリングにする学問。

・テキストマイニング・・・確率・統計的な手法で大量のテキストから有用な情報を引き出す分野。

自然言語処理

・コーパス・・・言語の使用方法を記録・蓄積した文書集合
→バランスよく設計された均衡コーパスに「BCCWJ」や「Brown Corpus」があるとのこと。

・辞書・・・形態素解析用辞書などがあるとのこと。

・知識獲得・・・文字列を処理し、コンピュータにとって有益な知識の状態にすること。

・情報抽出・・・自然言語から構造化された情報を抽出する技術。

・MeCab・・・形態素解析ソフトウェアでオープンソースであるが、未知語ではうまく処理できないことがあるとのこと。

と一旦以上で学習を区切りたいと思います。ご精読ありがとうございました。焦らずコツコツ自分のペースで頑張っていきたいと思います。

Discussion