Open10
機械学習を勉強していく
カテゴリ変数
- one-hot encoding
- dummy encoding
- effect encoding
- bin counting
正規化
- L2正規化
- 正則化
変換
- 対数変換
- Box-Cox変換
- Yeo-Johnson変換
LightGBMは欠損値があっても使えるからベースラインとして使いやすいらしい
ディープラーニングに入門する
我妻幸長さんの『はじめてのディープラーニング』で原理から完全に理解できます。
パターンマッチング(類似度計算)
ゲシュタルトパターンマッチング
Pythonの標準ライブラリ difflib
にて使用可能。
from difflib import SequenceMatcher
sm = SequenceMatcher(None, "abcd", "axyd")
sm.ratio()
print(similarity) # 0.5
レーベンシュタイン距離
import Levenshtein
similarity = Levenshtein.ratio("abcd", "axyd")
print(similarity) # 0.5