カイ２乗検定の例として同等性検定・独立性の検定・正確性の検定・マクネマー検定をわかりやすく解説

2024年1月27日

前回で勉強したカイ２乗検定（適合度の検定）を基本として、クロス表（分割表）を利用するさまざまなカイ２乗検定を紹介します。理解としてつながる順番（同等性検定・独立性の検定・正確性の検定・マクネマー検定）で解説していきます。

適合度の検定で、学んだピアソンのカイ２乗検定統計量がカイ２乗分布に従うことを次の記事でご確認ください。

今回勉強する、同等性検定・独立性の検定・正確性の検定・マクネマー検定などではカイ２乗分布の自由度に関する考察が大事になります。その都度、自由度はいくつになるのか？を一緒に考えていきましょう。

その他にも意識する点を３つに集約しました。ご確認ください。

カイ２乗検定の考え方として、次の３つを意識してください。
1.多項分布から開始し、確率の推定量を求めてから期待度数を考える。
2.帰無仮説はどのように設定されているか？を理解する。
3.カイ２乗分布の自由度を出す際の根拠を意識する。

この記事では有意水準をすべてεに統一します。

同等性検定

適合度の検定からすぐにできる応用として、同等性検定を学びます。

『データ解析のための数理統計入門』では同等性検定の例として小説家の例があげられています。

たとえば同じ人物がいくつかの小説（下記の図01の表のBの要素）を書いて、その中に登場するいくつかの単語の数を調べたデータがあるとします。そのデータを調べて（同等性の検定）、単語数（下記の図01の表のAの要素）の偏りの多さ、少なさから、その小説が同一人物による創作なのかを考えるときに用いることができます。

データ解析のための数理統計入門

著:久保川達也

口コミを見る

Amazon

楽天市場

Yahooショッピング

メルカリ

ポチップ

同等性検定は、いろいろな場面で活躍してくれそうな検定ですね！

それでは同等性検定の流れを説明します。帰無仮説と、多項分布の利用に注目してください。多項分布は期待度数（理論度数）を計算する際の確率を求めるときに用います。カイ２乗検定が絡む場面の序盤では多項分布を考えていくことが多いです。

対立仮説は「J冊の小説に登場するi番目の単語が登場する確率が全て等しくはならないような単語が少なくとも１つ存在する」つまり同一著者とは言えない、という意味です。

自由度について、なぜこの結果になるのかが分からないので教えてください。

まずは自由度は確率から考えていけば分かりやすいです。確率和が１であることに注意してください。帰無仮説が与えられたときの自由度はいくつになりますか？

さきほどの例では小説の数をJ冊で単語の種類をI種類と考えてみます。帰無仮説では、どの小説に登場する単語が出てくる確率も等しいとしているので、小説の種類は関係ないですよね。そして全確率が１なので、自由度はＩ-1になります。

その通りです！全体の自由度では、帰無仮説を与えたときの自由度Ｉ-1に、小説の冊数Jを掛けたものになります。

なるほど！だからカイ２乗分布の自由度はそれらの差で求まるということですね。

独立性の検定

I ×J表

次に、帰無仮説を少し変えたバージョンである独立性の検定を学びます。こちらはアクチュアリー数学で頻出のカイ２乗検定となります。

独立性の検定を行う流れを紹介します。

対立仮説は「AとBは独立とは言えない」です。

帰無仮説の数式について解説をお願いします。

これは高校数学で学ぶ考えと基本的には同じです。

例えば２つの確率変数XとYが独立のとき、「Xがxという実現値をとり、かつYがyという実現値をとる確率」は「Xがxという実現値をとる確率（Xの周辺分布を考えている）」と「Yがyという実現値をとる確率（Yの周辺分布を考えている）」の積に等しくなります。この周辺分布を考えたときの数式が帰無仮説の数式を意味しています。

自由度については、全体の自由度は表の中のセルの数であるIJ個の確率を全て足したら１なので、自由度はIJ-１ですね。

帰無仮説を与えたときの自由度は、周辺分布の全体の数であるI＋Jを考えます。しかし各周辺分布の確率和は１なので、自由度としては（I-1）と（J-1）の和になります。それらの結果からカイ２乗分布の自由度が得られます。

２×２表

アクチュアリー数学の独立性の検定では２×２表に限定したものが頻出です。

２×２表の場合の独立性の検定では時短可能な計算公式があります。試験ではこれを用いて解くことになります。

では、２×２表の公式を導出してみましょう。計算量が尋常になく多いだけで、やっていることは複雑ではありません。

この式の導出は有名参考書にはないので、しっかりと学習したいですね！

この公式は実は使用に制限があります。イメージ的にはnが小さいと使用できないということです。詳しくは次のイェーツの補正の章をご参照ください。

要するにnが大きくないと正確性の部分で良くないということですね。数式での説明をお願いします。

まず前提として、nが小さいとTの値が大きく出過ぎてしまうので、なんとかしてTの値を小さくするための工夫が必要になります。具体的にはイェーツの補正で解説します。

イェーツの補正

nが小さいときは次のイェーツの補正を行います。具体的には４つのセル（a,b,c,d）に対応する期待度数のうち少なくとも１つが５以下のときにイェーツの補正を検討します。

合計値を一定にしたまま、Tの値を小さくする工夫を考えることになります。

先ほどの質問の考察を※に書きました。つまりnがある程度小さいときはイェーツの補正が有効ということです。

しかし、イェーツの補正を行う前に、より正確な検定が可能なフィッシャーの正確性検定を検討した方が良いとされています。

フィッシャーの正確性検定

フィッシャーの正確性検定でも、イェーツの補正の考えと同じように、周辺部分を固定して考えます。

フィッシャーの正確性検定では、４マスの値（この２×２表では４変数の同時分布）を実現する確率を直截出していくことになります。

図05では２×２表のよくあるパターンを解説し、最後にI×J表の場合に一般化します。フィッシャーの正確性検定は、nが小さいときだけではなく大きい場合でも使用できるからです。

この確率の出し方は２通りあります。１つは図05のような思いつきやすい方法です。もう１つは後述する超幾何分布を利用する方法です。

超幾何分布を用いた出し方を教えてください！

了解です。まずは超幾何分布について復習します。

N個の中に当たりがM個あります。そこからn個を取り出します。n個の中にはX個の当たりがあります。Xを確率変数とするときに、Xは超幾何分布に従います。このことをX~H(N,M,n)と表現します。（H記号は例えば『リスクを知るための確率・統計入門』で使われています。）
https://www.muscle-castle.com/hypergeometric-distribution-expected-value-variance/

まずは超幾何分布を用いた計算式は次のようになります。

ただし超幾何分布は次のように設定しています。

図06の式が作れる意味を解説してください！

フィッシャーの正確性検定は、複数の２×２表を用いて得られた確率を足したものをP値とし、P値の値と自由度１のカイ２乗分布の上側ε点との比較を行うことにより、帰無仮説を棄却するかを判定する検定なのですね。

カイ２乗検定のうち、もう１つ面白い検定がありますので、最後にマクネマー検定を紹介します。

マクネマー検定

最後にマクネマー検定を解説します。マクネマー検定では表の中の設定が少し特殊ですので、まずはこちらを解説します。

まずは図09をご覧ください

あれ？表頭（縦）も表側（横）も同じAで考えていますね。違うのは１回目と２回目。これは一体どのような検定なのでしょうか。

マクネマー検定は同じ試行（結果は２通り）を２回繰り返したときに、１回目と２回目で結果に差異があるか？を調べるための検定です。

マクネマー検定も２×２の独立性の検定のときと同じくイェーツの補正があります。使用条件は記事の最後に紹介します。

なるほど。納得しました。

では実際にマクネマー検定の流れを導いてみます。図09と合わせてご覧ください。

ポイントは帰無仮説により、「何を無視してよいか」と「事象が２通りあるので、二項分布を用いる流れ」に気づくかどうかです。また、帰無仮説を仮定しているので振り分けられる確率は1/2とすることも大事です。

マクネマー検定は、二項分布→正規分布→カイ２乗分布の流れになっていて綺麗ですね。

その通りです。確率分布間の性質を知ることで、新たな検定が導かれたのは美しい流れですね。

マクネマー検定におけるイェーツの補正の使用条件は次の通りです。

２×２の独立性の検定のときのイェーツの補正の式と似ているので覚えやすいですね！

志田龍太郎

東京大学修士→30代セミFIRE元数学教諭(麻布高など指導)/アクチュアリー数学,統計検定１級(2025年に再挑戦)/数検１級→高３・漢検１級→教諭時代に合格/ブログ＋SNS運営/AmazonAssociates連携

2025/01/18

データサイエンティスト検定リテラシーレベルの勉強法と学習の記録

2025/01/01

G検定は合格率は高いが難易度も高いので複数書籍での勉強法がおすすめ

2024/12/23

ITパスポート（情報処理技術者試験）の過去問を網羅する勉強方法

コメント欄コメントをキャンセル

他のおすすめ記事

2025/3/23

データサイエンティスト検定リテラシーレベルの勉強法と学習の記録

2025年3月14日にデータサイエンティスト検定（リテラシーレベル）を受験して8割を超えることができました。ここまでの学習法などをシェアします。 https://twitter.com/nananairu7/status/1900454086794789315 近年注目されているデータサイエンスの名前がついた有名なデータサイエンティスト検定（リテラシーレベル）について学習記録を交えた対策記事になります。対策書として最もオーソドックスな『最短突破データサイエンティスト検定（リテラシーレベル）公式リファレン ...

2025/3/25

G検定は合格率は高いが難易度も高いので複数書籍での勉強法がおすすめ

G検定の概要と学習方法 G検定の試験時間は120分で全て選択式の知識問題で自宅にてオンライン受験になります。受験費用は一般は12000円で学生は5000円になります。G検定はキーワードを覚えておくだけでは解けない問題も多く出題され、理解が重要視される検定です。問われていることは何か？を理解し、どう調べれば答えが見つかるかが分かるレベルに達すると、解ける問題が増えます。ディープラーニング→数理統計や機械学習→人工知能ディープラーニングの箇所が最も頻出で、人工知能になると頻度は少なくなります。法律・倫理の問 ...

2025/3/17

ITパスポート（情報処理技術者試験）の過去問を網羅する勉強方法

ITパスポート試験は情報処理技術者試験のことで、情報系の国家試験です。そのため学習すること自体に価値があります。この試験はITの内容だけでなく、会社に関する幅広い教養を身につけることができ、勉強していて楽しい試験です。情報処理技術者試験→基本情報技術者試験→応用情報技術者試験→（データサイエンス系なら）データベーススペシャリストなどと難易度が上がっていきます。そのため情報処理技術者試験（ITパスポート）はこれらの国家試験の入り口に上がる大事な試験です。企業でもITパスポートを持っている社員には待遇を与 ...

2024/12/14

アクチュアリー数学の公式チェックシート

アクチュアリー数学で必要な公式を過去問をベースに総整理しました。なお公式は『アクチュアリー試験　合格へのストラテジー　数学　第2版』を元にしております。本書はアクチュアリー数学受験のバイブルで受験者は必携の書です。確率 Cの公式負の二項定理積分公式など https://www.muscle-castle.com/actuary-math-workbook-chapter1/ 第１章二項分布、ポアソン分布負の二項分布、ファーストサクセス分布超幾何分布 https://www.muscle-cas ...

2024/12/10

アクチュアリー数学のシミュレーションの過去問を解説

アクチュアリー数学のシミュレーションの過去問を解説します。本章はモデリングの最終章であり、アクチュアリー数学の最終章でもあります。内容は逆関数法・棄却法・合成法・分散減少法の４つです。順に解説していきます。分散減少法では負の相関法と制御編療法を扱います。全体的なおすすめの公式・問題集は『アクチュアリー試験　合格へのストラテジー　数学　第2版』です。お手元に置いて本記事をご覧くだされば学習効率が上がります。逆関数法平成17年度問１（８）標準正規分布標準正規分布最初の問題にして逆関数法の最難関の難問 ...

カイ２乗検定（適合度検定）の計算根拠をわかりやすく解説

単回帰分析のやり方を行列表示で説明し全公式をわかりやすく導出