Closed12

openintro-statistics

bayamasabayamasa

統計学入門で学んだ内容を練習問題が多いこちらの教科書で、復習していく

bayamasabayamasa

データにおける変数は4つに分類できる

  1. 数値変数かそうでないか
  2. 数値変数の場合、その値が連続か離散か
    連続か離散かはその値が小数を取るかどうかで判断するとよい。
    小数を取る値は連続型になる(気がする)
  3. 数値変数でない場合、その値に順序はあるか
bayamasabayamasa

複数の変数を持つグラフに対して、ある変数が他のある変数に影響を及ぼしていると判断できる場合、原因の変数を説明変数、結果の変数を目的変数と呼ぶ

bayamasabayamasa

ある程度の相関的な結果が見られたとしても、それは因果関係を示す保証にはならない。
もし因果関係を証明するのであれば、(統計的)実験を行う必要がある。

bayamasabayamasa

交絡
因果関係を惑わす他の要因

例えば、飲酒者と非飲酒者では飲酒者の肺癌発生率が高くなる。これは交絡因子である喫煙の影響によるもので、飲酒者に喫煙者が多いことによる。喫煙の有無で分けてから、飲酒者と非飲酒者の肺癌発生率を比べると違いは無くなり、飲酒は肺癌の発症と関連の無いことが分かる。
https://bellcurve.jp/statistics/glossary/1322.html

bayamasabayamasa

ヒストグラムの有用性
データセットが大きくなるとドットを見ても、データの偏りをみることが難しくなってくる。
そこでヒストグラムを利用してよりデータが見やすい形に落とし込む。
度数を定め、度数毎に標本をプロットして、その量を棒グラフとして表す。

これによりヒストグラムはデータ密度を得る。
データが一方向に裾が伸びているとき、裾が長い(long tail)と言われる

bayamasabayamasa

ヒストグラムは歪みや対称性だけではなく、最頻値(mode)を見つけることにも使われる。

このスクラップは2021/09/24にクローズされました