Zenn
😸

統計検定準1級 ワークブック 補助資料集

2025/01/23に公開
7

https://zenn.dev/ryoooou/articles/718fd8051b40a6

https://github.com/ryosuzaki/zenn-content/blob/main/articles/718fd8051b40a6.md

統計検定準1級対応のワークブックは網羅性は高いですが、分かりにくい部分が多いことで有名です。そのため、色々なサイトでそれを補完する必要があるのですが、それを纏めたサイトで十分なものはありません(多分)。

よって、準1級合格を目指す人が協力して高品質な補助資料集を作れる場を、zennのgithub連携を利用して作ってみました。
勉強中の方は是非、参考になったURLや説明、練習問題などを追加してみてください。
最終的にはワークブックや過去問を買わなくても、このサイトで勉強すれば合格出来るようなレベルに出来たらと考えています。

協力方法

まず、githubアカウントを持ってない方はアカウントを作成して、

https://github.com/signup?ref_cta=Sign+up&ref_loc=header+logged+out&ref_page=%2F&source=header-home

次に下のページにアクセスして、

https://github.com/ryosuzaki/zenn-content/edit/main/articles/718fd8051b40a6.md

ペンボタン(Fork this repository and edit the file)をクリック

image

そうしたら編集画面が出てくるので、ここで変更。

image

変更が終わったら、Commit changes... ボタンを押して、Extended descriptionに何を変更したかを書いたら(明白な場合はなくてもいいです)、Propose Changesをクリックして完了。

image

可能な限り早く対応します。難しくなってきたら権限委譲します。

参考になる準1級全体の記事

出題傾向をまとめたサイト。勉強の配分に非常に役に立つので、章の後ろに出題頻度を書き加えた。
https://mimikousi.com/statistical-certificate-pre1/#i-6
https://toketarou.com/quasi_1_cheatsheet/
https://zenn.dev/dlbsabu/articles/5300da50921070
https://qiita.com/tutututututu/items/0c745ff9b5ed175ff8bc

編集方針

https://toketarou.com/quasi_1_cheatsheet/
が素晴らしいので、基本的にこれをベースに他のサイトで補完していく形にしする。
ワークブックには明らかに範囲を逸脱したものも多くあるのそれは省く方針にする。

暗記帳

残念なことに準1級では統計学の理解以上に必要性の低い暗記も重要になるため、コストパフォーマンスの悪い部分をどの様に効率的に暗記するかが重要になる。そこで、Ankilotの共同編集を使って暗記帳を作る。安定動作が100枚以下なので、8章ごとで分ける。
共同編集のパスワードは1。

https://ankilot.com/view/list?id=aN5a4oLGhd

1.事象と確率 5/6

https://toketarou.com/quasi_1_cheatsheet/#toc1

2.確率分布と母関数 0/6

https://toketarou.com/quasi_1_cheatsheet/#toc2
https://bellcurve.jp/statistics/course/23841.html

3.分布と特性値 5/6

色々な平均

  • 加重平均[1]:商品1つに払われた平均金額(全体に支払われた金額/売れた商品個数)
  • 幾何平均[2]:平均伸び率(期間数√期間全体での伸び率)
  • 調和平均[3]:平均時速(全体距離/全体時間)

偏相関係数

4.変数変換 0/6

5.離散型分布 5/6

6.連続型分布と標本分布 6/6

頻出の指数分布
https://bellcurve.jp/statistics/course/8009.html
https://avilen.co.jp/personal/knowledge-article/e-parameter-derivasion/

2変量、多変量正規分布
https://note.com/outlifest/n/n418af8f13892

7.極限定理、漸近理論 0/6

https://note.com/outlifest/n/n7b2dd86ba173
https://qiita.com/ketchup1216/items/32533925cc7b0857c0ef

連続修正は図のように棒の中心ではなく端から合計するイメージ。

デルタ法:n(f(Xn)f(μ))\sqrt{n}(f(\overline{X_{n}})-f(\mu))の分布収束先を求める方法。
https://www.youtube.com/watch?v=Vmac6QC0owg

8.統計的推定の基礎 1/6

この章は難しくて重要なイメージ。
これまで何となく使ってきた用語をしっかりと意味を理解する。

  • 母数(パラメータ):母集団の特徴を表す母平均,母分散などの神のみぞ知る値。パラメータという命名が非常に分かりづらいので、パラメータ=母数であることに気を付けて読み進めましょう。

私たちは標本の情報から母数をどうにかして推定すること(統計的推定)で、母集団の特徴を知ろうとする訳ですね。

  • 推定量:標本から母数を推定するアルゴリズム(関数)またはそれによって求められる値。例えば母平均の推定量には標本平均があり、母分散の推定量には標本分散があります。

  • 統計量:母数の情報を含まない、標本の情報のみを利用したアルゴリズム(関数)またはそれによって求められる値。例えば母平均は含まないが、標本平均は含む。

推定量と統計量は曖昧なので分かりにくい。統計量+母数を推定するために使う=推定量と考えれば十分。実際、標本平均は統計量、推定量どちらでも使える。

このようにこの章では、簡単そうな名前でありながら厄介な用語があるので、よく意識しながら進めた方がいいと思います。

  • 尤度関数(likelihood function):これも本来の定義としては曖昧なのですが、この章では、仮の母数を入力したら、その仮の母数が真の母数である尤もらしさを出力する関数L(θ)として、使われている。

  • 最尤推定量:尤度関数を最大化する母数。最尤推定量は唯一ではないこともあるし、存在しないことさえある。

  • 最尤法:尤度関数の最大となる母数を真の母数と推定する方法。例えば、母平均を求めたい時は、得られた標本が仮定した母平均(θ)により生成された確率 f(X1;θ)f(X_{1};θ)を全ての標本で掛け合わせることで求められる、もし母平均がθであった時に今の標本が得られる同時確率を尤度関数L(θ)として、最大となるθを母平均として推定する。
    https://youtu.be/6XQJIQw-tUk?si=oWzGJKHQY5ONuNgS

https://ja.m.wikipedia.org/wiki/最尤推定

バイアスとバリアンス(分散)のトレードオフ。

https://atmarkit.itmedia.co.jp/ait/articles/2009/09/news025.html

  • バイアス-バリアンス分解:汎化誤差(平均二乗誤差など)の期待値をバイアス+バリアンス+ノイズの3つの和に分解すること。
    https://ja.wikipedia.org/wiki/偏りと分散

  • ガウス=マルコフの定理:残差を最小にするように最小二乗法で求めた推定量が、最良線形不偏推定量になることを保証する定理。
    https://ja.wikipedia.org/wiki/ガウス=マルコフの定理

  • クラメール・ラオの不等式:不偏推定量の分散の下限(バイアスの期待値は0なので不偏推定量の下限)を知れる。

  • クラメール・ラオの下限:クラメール・ラオの不等式によって求められる不偏推定量の分散の下限

  • 有効推定量:クラメール・ラオの下限を満たす推定量。最も分散の小さい不偏推定量といえるので、優れた推定量と言える。

  • フィッシャー情報量:フィッシャー情報量によって、クラメール・ラオの不等式を求められる。また、最尤推定量は対数尤度関数の母数偏微分の二乗の期待値なので、V[X]=E[X^2]-(E[X])^2が使える。https://www.youtube.com/watch?v=3yE5PrfNVrk

クラメール・ラオの不等式とフィッシャー情報量が重要なのは、推定量の優秀さ(有効推定量であるか)を調べられるから。

  • 十分統計量:ある統計量(標本平均など)を定めると、母数(母平均など)を定めなくても、どのような標本が得られるかの確率が定まるような統計量(標本平均など)。
    例えば、分散が既知の正規分布だと、標本平均が定まれば、母平均が定めなくても、ある程度どのような標本が得られるかは分かる。だが、最小値が定まっても、ある程度どのような標本が得られるかは分からない。
    https://youtu.be/9i8b_zx8_kA?si=D5B9jtFkT0DA_ys9

  • フィッシャー・ネイマンの分解定理:十分統計量であれば、今の標本が得られる尤度関数(同時確率分布)L(θ)=f(x1,x2,,xn;θ)=f(x;θ)L(θ)=f(x_{1},x_{2},\cdots,x_{n};θ)=f(x;θ)を、母数の関係する関数と関係しない関数の積で表せる。
    https://www.youtube.com/watch?v=sIKsbKO1Gmo

  • 一致性:サンプルサイズが無限大になった時に、推定量が母数に一致すること。
    https://bellcurve.jp/statistics/glossary/12813.html

不偏性と一致性の違い。
https://bellcurve.jp/statistics/course/8612.html

  • 漸近分布:標本サイズnを∞にした時に収束する分布。標本平均なら(μ,σ2/n)(\mu,\sigma^2/n)の正規分布。
  • 漸近分散:漸近分布の分散。標本平均ならσ2/n\sigma^2/n
  • 漸近有効性:推定量(標本平均など)の漸近分散が、クラメール・ラオの下限と一致していれば、推定量に漸近有効性があると言える。つまりnを∞にした時、推定量の分散が最小になる=優れた推定量と言える。
  • 漸近正規性:nを∞にした時、正規分布に分布収束すること。つまり、分散は0に収束するので偉い。

最尤推定量はの一致性、漸近有効性、漸近正規性を持つので、とてもいい推定量と思える。しかし、不偏性を持つとは限らない。
https://www.youtube.com/watch?v=oQfZjCO8Ja8
https://www.hello-statisticians.com/explain-terms-cat/point_estimation1.html#i-12

  • ジャックナイフ法:不偏でない推定量(推定量の期待値が母数にならないのでバイアスは0にならない)を補正して、不偏推定量に近づけることができる。補正した推定量をジャックナイフ推定量という。アルゴリズムとしては、1つ標本を除いた部分標本の推定量を全ての標本を求め、その平均を推定量とするというシンプルなもの。https://qiita.com/nijigen_plot/items/cb7a51b4c42349a1d0a0

  • リサンプリング法:ジャックナイフ法のように部分標本を用いて、推定精度を向上させる方法全般。ほかに有名なものとして、ブートストラップ法がある。

9.区間推定 2/6

母分散の比の検定:
https://bellcurve.jp/statistics/course/24270.html
多項分布の区間推定:母比率の区間推定に近い。
https://bellcurve.jp/statistics/course/9122.html
https://bellcurve.jp/statistics/course/26597.html
多項分布の差の区間推定:母比率の差の検定に近い。比率同士が独立でないので共分散が入ってくる。https://bellcurve.jp/statistics/course/18227.html
https://bellcurve.jp/statistics/course/18592.html
テキストのE[N1N2]=n(n-1)p1p2の解説。テクニカルなので自分で導出は大変。これは多項分布でしか成り立たないので注意が必要。
https://learning-with-machine.hatenablog.com/entry/2021/05/27/220000

10.検定の基礎と検定法の導出 5/6

抜取検査のFP(合格品を不合格にする)が生産者危険、FN(不合格品を合格品にする)が消費者危険。

11.正規分布に関する検定 1/6

12.一般の分布に関する検定法 3/6

尤度比検定。
https://youtu.be/-C0JUkVrlHY?si=fRDExwYnS7eF5Xfg

13.ノンパラメトリック法 1/6

https://bellcurve.jp/statistics/course/26258.html
ウィルコクソンの符号順位統計量の平均・分散
https://starpentagon.net/analytics/wilcoxon_signed_rank_mean_var/

14.マルコフ連鎖 4/6

行が今の状態を表し、列が今その状態である時の未来の状態確率である。

https://math-exploration.com/archives/212
https://manabitimes.jp/math/1060
https://manabitimes.jp/math/2757#5
例題の回答。
https://note.com/ebikazuki/n/n4c1612b2fa94
https://youtu.be/ps_v34epZDM?si=--w7Pe3j7WR8LuKf

15.確率過程の基礎 3/6

ブラウン運動では平均は変わらず、tが増えていくにつれて、分散も増えていく。
https://cdn-ak.f.st-hatena.com/images/fotolife/c/chaos_kiyono/20220628/20220628030127.gif
全体の解説
https://note.com/outlifest/n/n4a285406d35b
ブラウン運動、ランダムウォーク、ウィナー過程
https://chaos-kiyono.hatenablog.com/entry/2022/09/05/012341
ポアソン過程
ポアソン過程はウィナー過程と違い、上下動の幅ではなく発生頻度の幅が確率分布に従う。ウィナー過程では時間tが1増えるごとに、yが確率分布により生成された量分が増えていたが、ポアソン過程は時間tが確率分布により生成された量分増えたら、yが1増える。確率分布はウィナー過程は正規分布であったが、ポアソン過程は指数分布になる。
https://www.beginner-blogger.com/poisson-process/
複合ポアソン過程
複合ポアソン過程は合計の終端に確率変数が使われているので理解が難しいが、ポアソン過程のyの増加量をUkとして変更できるようにしたものだと考えればいい。
ポアソン過程では増加量は1なのでUk=1で複合ポアソン過程はポアソン過程と同一になる。

16.重回帰分析 8/6

https://bellcurve.jp/statistics/course/9702.html

17.回帰診断法 1/6

http://www.ner.takushoku-u.ac.jp/masano/class_material/waseda/keiryo/R20_reg3_BLUE.html
https://qiita.com/DeepMata/items/1657b3c463b9f5d2a39f#:~:text=になります。-,Cookの距離とは,の改善を行います。

18.質的回帰 1/6

ロジスティクス回帰
https://bellcurve.jp/statistics/course/26934.html
https://youtu.be/Xzwik2yGFig?si=R3htYti34_UkUP4C
https://youtu.be/8WGn8yEQ_x8?si=iaqv7eoXyyarZR8A
ロジスティクス変換は1/1+e11/1+e^{-1}で覚えた方がいいかも知れません。
プロビットモデル
https://abcxyzonetwothree.hatenablog.com/entry/2018/11/24/143538

19.回帰分析その他 1/6

全体像
https://note.com/outlifest/n/nb97236d661de
打ち切りモデルの尤度関数の導出


https://x.com/tak_math/status/1757681114045616258?t=5d67XChOG5Gd4fplAVEe_Q&s=19
生存時間解析の全体像
https://youtu.be/oHsEblnENy8?si=e6qziixlPxpzfNym
https://ja.m.wikipedia.org/w/index.php?

https://syleir.hatenablog.com/entry/2023/12/10/230619
title=%E7%94%9F%E5%AD%98%E5%88%86%E6%9E%90&diffonly=true#
https://necostat.hatenablog.jp/entry/2022/07/06/080239#ハザード関数
https://syleir.hatenablog.com/entry/2024/01/12/195556
https://qiita.com/nakey_tdse/items/b40238599395653a7965
https://ja.m.wikipedia.org/wiki/比例ハザードモデル

20.分散分析と実験計画法 7/6

https://toketarou.com/quasi_1_cheatsheet/#toc21
https://bellcurve.jp/statistics/course/12744.html
https://bellcurve.jp/statistics/course/10006.html
https://youtu.be/-7rq1YfxiG4?si=v4iJOMAeVYjmO7N1
https://youtu.be/e6WjJYnsJZk?si=QTfOus4HZp9lEt_v
https://youtu.be/EH_pMI1nXV0?si=vfPw0WYHBTrqdHFc
https://youtu.be/WtQD2t5fr7k?si=pd4RFYeauioQ1wgX
https://youtu.be/_EX8dH_H2rI?si=GvqnjEIo-LAWJ11P
https://youtu.be/zO9J6Y3ve_s?si=pvo_PBhmRLDGXT0Y
https://youtu.be/QebP3V6jT60?si=MLDMZHB4bBhtQVhE
https://youtu.be/nsWFq_nrEm8?si=nODt4MOqoY6EPLUt

21.標本調査法 3/6

https://toketarou.com/quasi_1_cheatsheet/#toc21

22.主成分分析 4/6

https://toketarou.com/quasi_1_cheatsheet/#toc22
https://youtu.be/bBEKlulWPH4?si=qXp9eMJiXMyQ1u8J
https://youtu.be/Etjrjx6iSsQ?si=NbRRhda-ohDQGI1z
https://qiita.com/LicaOka/items/1f4d1131af05fe30674e

23.判別分析 4/6

分類。
https://toketarou.com/quasi_1_cheatsheet/#toc23
https://qiita.com/mtanaka-kumw/items/42edc102be5353dee618
https://qiita.com/pira/items/4c84399671be2cb598e4
https://qiita.com/mtanaka-kumw/items/7a380647b17f8a05a55c
https://youtu.be/OOvMLXRVZQM?si=X-jjIfuTUAMNz5Ry
https://youtu.be/zETzmJMea_8?si=feAOXfFkMJ8P983y
https://youtu.be/aLeUF52clTw?si=zLWCWIxLOsnc8MqQ
https://youtu.be/xI0KHBE1fvo?si=H1Pmfvn4qH6WO7OD
https://www.hello-statisticians.com/explain-books-cat/stat_workbook/stat_workbook_ch23.html#232
https://www.goodnalife.com/entry/2020/03/10/210434

24.クラスター分析 2/6

クラスタリング。
https://toketarou.com/quasi_1_cheatsheet/#toc24
https://bellcurve.jp/statistics/course/27155.html

25.因子分析・グラフィカルモデル 5/6

因子分析
https://youtu.be/neFRKLQnbpE?si=7xKg_M0S13ttTaNO
共通性の解説。
https://www.nttcoms.com/service/research/dataanalysis/factor-analysis/
https://istat.co.jp/ta_commentary/factor_analysis_02
https://youtu.be/5W4c7R1HvD8?si=QsKTHhE5pz9dAKtG
https://youtu.be/rJ2_hi-bq8k?si=ceYkipqQ8bJ1ZYQ7
https://ja.m.wikipedia.org/wiki/操作変数法
https://www.youtube.com/watch?v=hh_KPDZ1D2Y

26.その他の多変量解析手法 0/6

https://toketarou.com/quasi_1_cheatsheet/#toc26
https://zenn.dev/pe/books/dd221cbc975950/viewer/af100b

27.時系列解析 7/6

https://toketarou.com/quasi_1_cheatsheet/#toc27

https://youtu.be/Fq73BS32a-8?si=WYELPLaVT1MGZjVq

http://www.mi.u-tokyo.ac.jp/mds-oudan/lecture_document_2019_math7/time_series_analysis_2019.html

28.分割表 5/6

https://toketarou.com/quasi_1_cheatsheet/#toc28

これらの研究によって分割表がつくられることがある。

分割表の評価にこれらの指標が使われる。

  • オッズ比、対数オッズ比、標本オッズ比、相対リスク

https://bellcurve.jp/statistics/course/26781.html

大標本の母対数オッズ比が正規分布で近似できることを利用することで信頼区間を求められる。

分割表の検定ではこれらの手法が使われる。

逸脱度は2×(対数尤度)
https://en.wikipedia.org/wiki/Deviance_(statistics)

2元分割表の最尤推定量の導出(導出が難しいので暗記必須)
https://avilen.co.jp/personal/knowledge-article/maximam-likehood-estimate-of-degree-of-freedom/

よって2元分割表の逸脱度はこうなる。これも暗記必須。
image

また、分割表の因子間の独立性や条件付き独立性を解析するためにこのようなモデルが使われる。

https://www.slideshare.net/slideshow/ss-35483453/35483453#21

29.不完全データの統計処理 3/6

https://best-biostatistics.com/summary/multiple_imputation.html
https://note.com/outlifest/n/nc6b7c016e695

30.モデル選択 1/6

31.ベイズ法 4/6

https://youtu.be/frHTMwRdMnA?si=w6QomjFnM-6EOW8p

32.シミュレーション 2/6

https://youtu.be/h2EURfZmcaw?si=4Nz5SxJ21kOiAQO6
https://manabitimes.jp/math/1160
https://aidiary.hatenablog.com/entry/20140712/1405165815
https://rayspace.xyz/CG/contents/montecarlo/
https://youtu.be/lRXvf4sb2m4?si=05icH-QvIIV8WWkX
問32.1(2)は解答。
https://youtu.be/u2fNfHjsFeA?si=I7QXvO0b3q-oLIns

脚注
  1. https://gmo-research.jp/research-column/weighted-average ↩︎

  2. https://atmarkit.itmedia.co.jp/ait/articles/2311/01/nAews018.html#:~:text=数学/統計学/機械学習における幾何平均(Geometric,は相乗平均とも呼ばれる。 ↩︎

  3. https://atmarkit.itmedia.co.jp/ait/articles/2311/22/news040.html ↩︎

GitHubで編集を提案
7

Discussion

ログインするとコメントできます