Closed12
openintro-statistics
統計学入門で学んだ内容を練習問題が多いこちらの教科書で、復習していく
データにおける変数は4つに分類できる
- 数値変数かそうでないか
- 数値変数の場合、その値が連続か離散か
連続か離散かはその値が小数を取るかどうか
で判断するとよい。
小数を取る値は連続型になる(気がする) - 数値変数でない場合、その値に順序はあるか
名目変数はカテゴリカル変数とも呼ばれる
複数の変数を持つグラフに対して、ある変数が他のある変数に影響を及ぼしていると判断できる場合、原因の変数を説明変数、結果の変数を目的変数と呼ぶ
ある程度の相関的な結果が見られたとしても、それは因果関係を示す保証にはならない。
もし因果関係を証明するのであれば、(統計的)実験を行う必要がある。
母集団
調査対象の集合全体のこと
標本
その母集団の情報を推測するために選ばれた一部の集団
標本は母集団からランダムに選ばれなくてはならない。
もし偏りがある標本を選んだとき、それはバイアスと呼ぶ。
交絡
因果関係を惑わす他の要因
例えば、飲酒者と非飲酒者では飲酒者の肺癌発生率が高くなる。これは交絡因子である喫煙の影響によるもので、飲酒者に喫煙者が多いことによる。喫煙の有無で分けてから、飲酒者と非飲酒者の肺癌発生率を比べると違いは無くなり、飲酒は肺癌の発症と関連の無いことが分かる。
ヒストグラムの有用性
データセットが大きくなるとドットを見ても、データの偏りをみることが難しくなってくる。
そこでヒストグラムを利用してよりデータが見やすい形に落とし込む。
度数を定め、度数毎に標本をプロットして、その量を棒グラフとして表す。
これによりヒストグラムはデータ密度を得る。
データが一方向に裾が伸びているとき、裾が長い(long tail)と言われる
ヒストグラムは歪みや対称性だけではなく、最頻値(mode)を見つけることにも使われる。
箱ヒゲ図
四分位線を表示した関数
データにどのくらいばらつきがあるかを示した図
このスクラップは2021/09/24にクローズされました