🔢

「書籍:心理統計学の基礎」におけるt値の解釈について

2024/04/26に公開

ことの発端とt値の再確認

発端

先日、効果検証入門という書籍を読んでいたのですが、そこで久々にt検定の話が出てきました。
https://gihyo.jp/book/2020/978-4-297-11117-5
正直、統計検定2級の勉強以来あまり使ってこなかったため忘れている気がしたので、せっかくの機会と思い、復習をしてみようと思ったのです。

まず先にt値についておさらいしておきます。
感覚的に言うと「{対象}が標準誤差に対してどれくらいなのか?」という値とざっくり思っておいてください。
式で書くと\frac{\text{対象}}{\text{標準誤差}}となります。

t値の分子について

t検定を使う場面では以下のようになるかと思います。

  • 対応のある2群
    • {対象}=郡内の平均値差
  • 対応のない2群
    • {対象}=A群の平均-B群の平均

t値の分母について(本題)

対応の有無によらず分母は標準誤差となり、これが本題です。
A群とB群のサンプルサイズがmとnとすると、標準誤差は下のようになります。

SE=\sqrt{\frac{V}{m} + \frac{V}{n}}

この式を求めるためにはVが必要になりますが、それは下のようになります。

V=\frac{\left(\sum (A_i - \overline{A})\right)^2 + \left(\sum (B_i - \overline{B})\right)^2}{n + m - 2}

この式は覚えてください。この先色々式が出てくるんですが、終着点はこの式です。
この式が共通言語というか共通概念です。

標準誤差の式の解釈

上述した標準誤差の式は以下のように書き直せます。

V=\frac{(m-1)/(m-1)\left(\sum (A_i - \overline{A})\right)^2 + (n-1)/(n-1)\left(\sum (B_i - \overline{B})\right)^2}{n + m - 2}

ここで上式内に不偏分散を見出します。

s_A^2 = \frac{\sum (A_i - \overline{A})^2}{m-1}
s_B^2 = \frac{\sum (B_i - \overline{B})^2}{n-1}

その上でVを書き直すと以下になります。

V=\frac{(m-1)s_A^2 + (n-1)s_B^2}{n - 1 + m - 1}

しれっと分母をn+m-2=n-1+m-1としている時点でお察しと思いますが、上式は各群の不偏分散の重み付き平均になっています(たぶん)。

「心理統計学の基礎」内での標準誤差

書籍:心理統計学の基礎 について

統計を勉強し始めたときに勉強するために購入したもので、私自身が心理学を専攻しているとかではないです。
しかし、割と高度な内容を平易に書いていて、特に初学者にとってハードルとなる途中式の省略がなく、いわゆる「行間を読む」ことが少ないのでおすすめです。
https://www.yuhikaku.co.jp/books/detail/4641121605

平均値差の検定に関する記述

要は平均値差の検定に関して復習しようと、昔読んでわかりやすかった記憶があったテキストを引っ張り出したという話です。
p.160 第6章 平均値差と連関に関する推測に以下の記述があります。

(6.4)式

s^*=\sqrt{\frac{n_1s_1^2+n_2s_2^2}{n_1+n_2-2}}

この式の右辺の平方根の中は、2群の標本分散s_1^2,s_2^2をそれぞれのサンプルサイズn_1,n_2で重み付けた平均の形となっています。通常の重み付き平均なら、分母はn_1+n_2となりますが、ここではn_1+n_2-2となっています。その理由は、そうすることによって、(6.4)式の平方根の中の統計量が、両群の母集団に共通と仮定している分散\sigma^2の不偏推定量になるからです。

先述した標準誤差との違い

(6.4)式について見てみると、上述の説明の通り標本分散を用いています。このコンテキストで分散を考えると以下のようになります。

V=\frac{(n_1)/(n_1)\left(\sum (A_i - \overline{A})\right)^2 + (n_2)/(n_2)\left(\sum (B_i - \overline{B})\right)^2}{n_1 + n_2 - 2}=\frac{\left(\sum (A_i - \overline{A})\right)^2 + \left(\sum (B_i - \overline{B})\right)^2}{n_1 + n_2 - 2}

これは最初に述べた「覚えてください」と言った式と同じになっています。

結論

いわゆるプールされた分散を求めるのに、不偏分散を用いるか、標本分散を用いるかの違いこそあれど、標準誤差は最終的に同じ形になります。どちらも標準誤差は概念的には分散の重み付き平均です。

最初に求めた式については不偏分散を用いているので、重み付き平均として字面通りに解釈できます。
ただ、心理統計学の基礎における記述では標本分散を用いているため、以下のような違いがあります。

  • 途中式が異なります
    • 各群の分散の係数がn-1ではなくnになっている
  • 重み付き平均という大枠は同じものの多少トリッキー
    • 通常の重み付き平均とは異なり、単純なサンプルサイズの和ではなく、さらに-2をして不偏推定量にする

結果は同じなので字面通り、数式通りに重み付き平均として解釈できる1つ目の式の方が覚えやすくていいと思いました。
最後に、心理統計学の基礎という書籍は非常にわかりやすいのでおすすめです。

Discussion