📁

Pythonで秒速の機械学習「FastText」を分類で簡単に使う方法

2022/03/29に公開

注意

僕に処理が悪いのかクソ性能です。
不均衡データ & 15項目で分類したテスト結果が以下になります。
(3572, 0.524636058230683, 0.524636058230683)

おそらく次元削減をするなど項目を減らせば飛躍的に精度が上がるかと思います。

git clone https://github.com/facebookresearch/fastText.git
cd fastText
make

c++ -pthread -std=c++11 -march=native -O3 -funroll-loops -DNDEBUG -c src/args.cc
clang: error: the clang compiler does not support '-march=native'

makeを実行したディレクトリにあるMakefileに入り、
-march=native を消して -mcpu=apple-m　と書き換えたらうまく行きました。

学習するデータはこのように格納しておく

import sys
import fasttext as ft

# 学習モデルを作成
model = ft.train_supervised(input="model.txt")

# モデルを保存
model.save_model("model.bin")

そうすると、モデルを使ってカテゴリを予測できるようになります。

model.predict("にんじんジュース")
(3572, 0.524636058230683, 0.524636058230683)

スッキリわかるPython入門
https://amzn.to/3qJWGfP

Pythonの基礎でも紹介した、スッキリわかるPython機械学習
この本で機械学習を勉強しました。
https://amzn.to/3wLswwl
scikit-learn 20本ノック　（いまにゅさんの動画)
https://youtu.be/Fbynk_9TfXg

https://amzn.to/3JKVccu
僕はデータの前処理や学習モデルを作っているとき、「？？？」となることがあった。
そのとき読んでクリアできた。