🔥

【AI_19日目】自然言語処理_3冊目

2024/10/20に公開

こんにちは投資ロウトです。

背景

AI開発ができるために自然言語処理について理解を深めていきます。

以下の記事のStep2として、「BERT・GPTモデルについての本を読む」3選が書かれているので、そちらをやっていきたいと思います。

https://nlpillustration.tech/?p=4419#rtoc-7

文章校正

・文章校正・・・さまざまなタイプの間違いの校正(誤りの不備を直す)を対象とする
→具体的には、誤ったトークンから正しいトークンを出力させるようにするとのこと。

・BertForMaskedLMの使い方
→推論時に、符号化した文章を入力として、トークンごとのラベルの分類スコアを出力
→学習時に、符号化した文章とトークンごとのラベルを入力として、損失の値を出力

・誤り文字のデータセットがある

https://nlp.ist.i.kyoto-u.ac.jp/?日本語Wikipedia入力誤りデータセット

類似検索

・文章ベクトル・・・BERTにトークン化された文章をすることで、ベクトルが出力され、それらのベクトルを集計して特徴づけるベクトルのこと。

・類似文章検索・・・与えられた文章からそれと内容の似ている文章をデータベースから選択するタスク。

・文章から文章ベクトルを生成するためにBERTを使用する

・文章ベクトルは一般的には数百次元のベクトルとのこと。
→人間に数百次元のデータは理解できないので、次元圧縮して確認する方法が一般的とのこと。
[主成分分析, t-SNE]

・主成分分析・・・データのばらつきが大きな方向を選び、その方向にデータを線形に射影するような方法とのこと。

・t-SNE・・・高次元の空間上で距離の近い点同士は低次元空間で距離が近くなるように、逆に高次元の空間上で遠い点同士は、低次元の空間で遠くなように配置する非線形手法とのこと。

・コサイン類似度・・・文章ベクトル間の類似度を評価する指標として、よく用いられるもの。

と短いですが、以上でBERTの学習を終えたいと思います。焦らずコツコツ自分のペースで頑張っていきたいと思います。ご精読ありがとうございました。

Discussion