Closed16
Twitter APIで取得したタコピーの原罪感想ツイートをspaCy/GiNZAで分析する
ピン留めされたアイテム

実況

スクラップのスレッド整理した。
複数スレッドを使い分けたい時に、最新の書き込みがあったスレッドが1番上に来てくれるとありがたいなと思った。

CountVectrizerを調べる

numpy.distutils.system_info.NotFoundError: No BLAS/LAPACK libraries found

ARMとROSSETA2を使い分けているのでbrewも別途考える必要がある。
とりあえずaliasをzshrcに追加した

sklearn入った。CountVectorizerやっていく

numpyの扱いわからん

numpyで行列がちょっとずつ扱えるようになってきた

時系列の単語頻度のグラフが出せるようになった!

今は単純にn件単位でツイートを分割しているけど、これだと時間の推移を考慮できない。
一方で、時間の推移でツイートの絶対数が変化する場合、単語ごとの出現頻度がつかめない。
ツイート数の影響を除くために、時間単位ごとにツイート数で割った指標をつくる。

↑できた
このスクラップは2022/04/20にクローズされました