【AI_13日目】自然言語処理_2冊目
こんにちは投資ロウトです。
背景
AI開発ができるために自然言語処理について理解を深めていきます。
以下の記事で、まず初心者が読むべき2選が書かれているので、そちらをやっていきたいと思います。
情報検索システム
・ブーリアンモデル・・・Yes/Noのブーリアンによって、文書が適合するか確認するモデル
※Web検索など、文書集合が多くなるにつれて問題になることがあるとのこと。
・文書ベクトル・・・ベクトルとして表現された文書の表現のこと。
・ベクトル空間モデル・・・適合する度合いをブーリアンなどではなく、数値として判断でき、文書ベクトルを用いて適合度を求める情報検索モデル。
→利点は文書とクエリの類似度が計算しやすいということ。
・TF・・・索引語頻度
・IDF・・・ある索引語に対して、その索引語が出現する頻度の数が小さいほど、より大きな重みを与える。
・コサイン類似度・・・最も一般的に使われるもの。
・正規化・・・各ベクトルの長さが同じになるように値を調整する操作。
・内積・・・各索引語に対して、その重みをそれぞれ掛け合わせた値を合計。
Web検索
・検索エンジンで重要なこと・・・適合するWeb文書を上位10〜20位以内に検索結果として表示させること。またページ解析技術も重要。
例)
URL, HTMLのtitleタグ、h1などで表示される索引語は、より高い重みを割り当てるべきなど。
・クローリング・・・定期的に各種サーバーの文書を巡回すること。
→各ページのリンクを辿って、自動的に大量文書を取得していく。
※ただし闇雲に繰り返せば、クローリングに使える資源が限られているので、この世の全ての文書にアクセスはできないとのこと。そのため何かしらの方法で文書の優先度を検索し、その優先度が高いものから検索することが重要。
またある単一サイトに負荷がかからないように、robots.txtの無用を遵守したり、クローラーの振る舞いに関する制御も重要とのこと。
ランキング
・ランキング学習・・・この場合にこの文書を適合文書とするという教師データをアルゴリズムに与えて、自動で重みを調整できるようにすること。
・適合性フィードバック・・・ユーザー側から、ある文書が適合しているかの手掛かりを元に、ランキングを改善する手法。
・PageRank・・・文書の重要度を計算するアルゴリズムで、根底には多くの文書からリンクされている文書は重要な文書であるという概念。
・偽陽性・・・適合文書の中にあって正解ではない文書
・偽陰性・・・正解文書の中にあって適合しなかった文書
・再現率・・・正解文書のうち、どのぐらいの部分を正解適合文書が占めるかを表したもの。
・F値・・・精度と再現率の調和平均
自然言語処理の活用
例)
・ニュースサイトで類似する記事を発見する技術
・オンラインショップで商品をユーザーにおすすめする技術
・スパムメールを防止する技術
・文書分類・・・コンテンツを何かの体系で分類する
・言語識別・・・文書の言語を推定する
・著者推定・・・誰が書いたのかを推定する
・素性・・・判別に使う情報のこと
・類似文書検索・・・ある特定の文書を渡されたときに、それに類似する文書を探す技術
→ベクトル空間モデルが使われることが多い。
・クラスタリング・・・類似したコンテンツをグループにまとめる技術
・テキストマイニング・・・自然言語データを構造化し、使用しやすい形に置き換え、有用な情報を取り出す技術。
・関係抽出・・・エンティティに対する情報や関連をテキストから抽出し、データベース化する技術。
・評判分析・・・Web上の書き込みから意見の抽出と分析を行う技術
・レコメンド技術・・・ユーザーが気になりそうな情報を積極的に推薦する技術
・文書要約・・・大量の情報から重要な情報を取ってくる技術
自然言語処理の未来
・固有表現・・・日付・時間・金額表現のこと
・固有表現抽出・・・上記を抽出するタスク
・格・・・術後に対して名詞の持つ役割
・格構造・・・述語とその他の名前との関係
・必須格・・・ほぼ省略できない格
・任意格・・・省略できる格
・格フレーム・・・とりえる格の種類を構造化したもの
・表層格・・・助詞の種類や構文などから表面的にわかる格
・述語項構造解析・・・文中の述語と項を同定する処理
・意味役割付与・・・述語に対する項の意味的な関係を各動詞に対して付与すること
・照応・・・文章中のある表現で他の事柄を指し示す現象
→日本語では主語が前の文から消えてしまったりするため、この解析が重要とのこと
と以上で2冊目も読破しました。小さな積み重ねを焦らず一歩ずつ進めていきたいと思います。ご精読ありがとうございました。
Discussion