Closed16

Twitter APIで取得したタコピーの原罪感想ツイートをspaCy/GiNZAで分析する

ピン留めされたアイテム
gugu

実況

gugu

スクラップのスレッド整理した。
複数スレッドを使い分けたい時に、最新の書き込みがあったスレッドが1番上に来てくれるとありがたいなと思った。

gugu

numpy.distutils.system_info.NotFoundError: No BLAS/LAPACK libraries found

gugu

ARMとROSSETA2を使い分けているのでbrewも別途考える必要がある。
とりあえずaliasをzshrcに追加した

gugu

sklearn入った。CountVectorizerやっていく

gugu

numpyで行列がちょっとずつ扱えるようになってきた

gugu

時系列の単語頻度のグラフが出せるようになった!

gugu

今は単純にn件単位でツイートを分割しているけど、これだと時間の推移を考慮できない。
一方で、時間の推移でツイートの絶対数が変化する場合、単語ごとの出現頻度がつかめない。
ツイート数の影響を除くために、時間単位ごとにツイート数で割った指標をつくる。

gugu

進捗

gugu
  • Twitter APIでタコピー関連のツイートを収集した
  • JSON形式からツイートのテキストデータを抽出した
  • 前処理をいろいろ調整した
  • 単純な単語ランキング作った
  • ginza.bunsetuを使って、bunsetu単位の構文片ランキング作った

やること

  • 時系列でワードランキングつくりたいので、Numpyとかで疎行列つくる方法調べる
このスクラップは2022/04/20にクローズされました