Pythonで自然言語処理＆トピックモデルを学ぶ #第1回メモ

当日の講義資料: https://github.com/extech-developer-ksato/nlp_sample_learning/tree/master/vol01
参加者の集まり具合により5分遅れでスタート

自然言語処理の1分にトピックモデルというものがある（もしくは、あった）

トピックっって何？

文書に対するトピックモデルを自然言語処理を学びながら、平行して位置s機や知見をためる

データや状況から複数の選択肢から"決める"行為

最終的には意思決定するのは人なのだが、意思決定するための材料および提案をコンピュータなどが行うこと

データアナリスト: 統計解析、可視化
AIエンジニア: 統計解析、可視化、機械学習

意思決定の代表的な手法にトピックモデルがある

chimame

言語は以下の2つに大きく分けられる

形式言語とは

自然言語とは

NLTK（Natural Lange Tool Kit）

ゼロパディング
ゼロ埋めは、文字で数値を表す際に、書式で指定された桁数に満たない場合に、桁数をそろえるためゼロをふよすること
機械学習のデータ前処理や自然言語処理でよく扱う
ストップワード
MeCabとかNLTKを利用してもやはり不要な言葉を抽出してしまう場面で不要な言葉をあらかじめ用意しておく
コーパスクリーニング
- 大文字/小文字の統一
- 句読点の統一
- 用語（同義語）の統一 etc
- "w"などのスラグ文字の変換

自然言語処理とは計算機で「自然言語」を処理すること

Google Colaboratoryでのハンズオン

MeCabのインストール
Pythonによる特定サイトのWebスクレイピング
- Web上の文章からMeCabでの単語抽出
- 記号などの不要データの削除
- 意味のないと思われる単語の除外
単語データの可視化（出力回数が多い順？

以上

このスクラップは2022/05/28にクローズされました