🙆♀️
タイタニック生存問題備忘録
あるデータセットにおいて、各特徴量が目的関数とどの程度相関しているかを調べる
pd.get_dummies():
あるデータセットに、カテゴリカルデータが含まれている場合に使用。
pd.get_dummies()は、これらのカテゴリカルデータを数値データに変換。これをone-hotエンコーディングと呼ぶ。
例えば、「性別」列が「男性」と「女性」の値を持つ場合、pd.get_dummies()は「性別_男性」と「性別_女性」という2つの新しい列を作成。「男性」の場合は「性別_男性」列が1、「性別_女性」列が0となります。「女性」の場合は逆になる。
これにより、カテゴリカルデータを数値データとして扱い、相関分析を行うことができる。
corrwith(train["survived"]):
corrwith()は、データフレームの各列と指定した列との相関関係を計算。
相関関係は-1から1までの値を取り、1に近いほど正の相関(一方が増加するともう一方も増加する)、-1に近いほど負の相関(一方が増加するともう一方が減少する)が強いことを示す。
0に近い場合は相関が弱いことを意味する
つまり、このコード全体としては、データセットの各特徴量(one-hotエンコーディングで数値化されたもの)と目的関数との相関関係を計算し、生存に影響を与える特徴量を特定するために使用される
備考メモ
.csv ファイルはカンマ区切り、.tsv ファイルはタブ区切り
Discussion