Open10

機械学習を勉強していく

winnie279winnie279

カテゴリ変数

  • one-hot encoding
  • dummy encoding
  • effect encoding
  • bin counting

正規化

  • L2正規化
  • 正則化

変換

  • 対数変換
  • Box-Cox変換
  • Yeo-Johnson変換
winnie279winnie279

LightGBMは欠損値があっても使えるからベースラインとして使いやすいらしい

winnie279winnie279

パターンマッチング(類似度計算)

ゲシュタルトパターンマッチング

Pythonの標準ライブラリ difflib にて使用可能。

from difflib import SequenceMatcher

sm = SequenceMatcher(None, "abcd", "axyd")
sm.ratio()
print(similarity)  # 0.5

https://www.y-shinno.com/python-difflib/

レーベンシュタイン距離

import Levenshtein

similarity = Levenshtein.ratio("abcd", "axyd")
print(similarity)  # 0.5

https://qiita.com/shoku-pan/items/befa11396a7c3cc10f6c