カイ２乗検定（適合度検定）の計算根拠をわかりやすく解説

2024年1月25日

カイ２乗分布が関係するピアソンの適合度検定を勉強します。

メンデルの法則などで有名な検定ですね。実生活での応用が多いと聞きます。

統計検定１級のバイブルになりつつある久保川先生の新作『データ解析のための数理統計入門』では、適合度検定で１つの章になるほど、実社会においてとても大事な検定のお話です。

身近な例では、適合度の検定はどのような状況で使えますか？

例えば理想的な６面サイコロはどの目も出る確率は等しく1/6のはずですよね。複数回の実験した結果、１〜６の目が出る確率が不均一だったとします。このサイコロは正しいサイコロであると判断できるか？などという問題で使います。

適合度検定とは母集団がモデルとする分布に適合するか否かということを検定するための方法です。またこれはカイ２乗検定の一種になります。

メンデルの法則やはじめとし、文理をこえたところで役に立つ検定ですので、理論面と計算面を同時に鍛えていきましょう！

データ解析のための数理統計入門

著:久保川達也

口コミを見る

Amazon

楽天市場

Yahooショッピング

メルカリ

ポチップ

カイ２乗検定（適合度検定）はエクセルと相性が良い

適合度検定を行うために、まずは表の見方を覚えましょう！カイ２乗検定は表を扱うので、具体例をエクセルに打ち込みながら行うと理解が深まります。

階級をまずは設定します。サイコロで例えると１の目、２の目、…などです。

階級の考えは多項分布のときの考えと似ていますね。

その通りです！適合度検定を理解するためには多項分布の理解が必須になります。

: ベータ分布をメインに順序統計量を多項分布から導出しディリクレ分布へと応用（期待値と分散も導出）
カイ２乗分布を終えたので次はt分布へと進むつもりでしたが、このtweetのように考えてt分布へと進む前にベータ分布を先に学ぶ方が良いと思いました！ https://twitter.com/nanana ...

多項分布の復習はこちらから！

次に実現度数を見てください。これは観測度数（英語を考えてObservation frequencyの頭文字のO←オーで表す書籍が多いです）ともいいます。

実際に得られた値のことですね。

次に理論確率があります。これは理想のモデルにおける確率のことです。例えば理想的なサイコロの各目が出る理論確率は等しく1/6です。

それに伴い、理論度数（別名：期待度数）という理想的な量を計算して出します。

理想的な量と現実的な量とがどれくらいのギャップを持つか？というところから出発します。ギャップが多いほど適合していないとなりますよね。そのため適合度検定の棄却域は右側にとります。図03を参照。

カイ２乗検定（適合度検定）の計算方法

それでは適合度検定の計算方法を紹介します。

図02におけるTをピアソンのカイ２乗検定統計量といい、Tは自由度k-1のカイ２乗分布に従います。

カイ２乗分布が出てくるイメージはTの分子の形が分散を想起させるからです。そもそもカイ２乗分布は２乗和が大きく絡む分布でした。

棄却域はこちらになります。右側検定であることをご確認ください。

k＝２のときのカイ２乗検定（適合度検定）の例

Tが本当にカイ２乗分布に従うのか疑ってます笑。確かめて欲しいです！

了解しました。例えば確率和１などの合計の値が定数であることにご注意ください。

すごいゴリ押しですね！笑。でも確かにカイ２乗分布に従うことが確かめられてよかったです。

しかしk＝２ではなく、より大きい一般の場合の証明はかなり難易度が高いです。そのため後述する尤度比検定を用いて考えます。

カイ２乗検定（適合度検定）の自由度が絡む計算をわかりやすく解説

まずは理論確率を求めて理論度数を求めるために、理論確率を多項分布による最尤法で求めましょう。その後に適合度検定の統計量（ピアソンのカイ２乗検定統計量）を求めますが、ここでは一般的な尤度比検定の考えを経由して求めていきます。

まずは最尤法を用いて理論確率を求めておきましょう。

理論確率は多項分布による最尤推定量でラグランジュの未定乗数法を用いる

マクローリン展開やラグランジュの未定乗数法は『微分積分キャンパス・ゼミ』がわかりやすく書かれています。数学検定１級の対策書としても有効です！

微分積分キャンパス・ゼミ改訂9

マセマ出版社

口コミを見る

Amazon

楽天市場

Yahooショッピング

メルカリ

ポチップ

ピアソンのカイ２乗適合度検定統計量Tがカイ２乗分布に従うことの証明は２通りあり、１つは真正面から示す方法で、もう１つは尤度比検定を経由する方法です。前者はとても難易度が高いので、この記事では後者を採用します。

尤度比検定をわかりやすく解説

尤度比検定からはさまざまな検定が導かれます。今回のカイ２乗検定（適合度検定）もその一例になります。

尤度比検定では棄却域はどのように定めるのですか？

尤度比検定はどちらを分母にするかで２通りの考えがありますが、一般にカイ２乗検定は自由度が絡むので、一貫して覚えやすいように図06を採用しました。それに伴い棄却域の形が変わってきます。

図08のように尤度比検定統計量に自然対数の−２倍（尤度比検定統計量の分母分子を逆にした場合は２倍）した量がカイ２乗分布に近似的に従います。この近似的という点が記事後半のポイントになります。

カイ２乗検定（適合度検定）では図08にあるような詳しい自由度の考察は不要です。注意点は次の２つです。
1.階級がK個の場合は、Tは自由度k-1のカイ２乗分布に従う。
2.未知パラメータがある場合は、その個数分だけ自由度から引く。

アクチュアリー数学では未知パラメータがある場合も多々あり、自由度の計算に気をつけないといけません。

カイ２乗検定（適合度検定）のp値の計算法

それではこの記事のメイン部分に進みます。Tが自由度k-1のカイ２乗分布に従うことの証明です。

帰無仮説は理想的なモデルに相当する確率が、観測するモデルで得た確率と等しいことを仮定します。対立仮説はその否定です。

まずはこのことを踏まえてご一読をお願いします。テクニカルな要素としては対数関数のマクローリン展開になります。またランダムのo記号を用いると証明をすっきりと書けます。

まずは１つ１つまとめていきましょう。マクローリン展開は数学検定１級の内容です。おすすめの参考書などはこちらの記事をご覧ください！

最後の行の≒つまり、近似的に自由度k-1のカイ２乗分布に従うとの結論ですが、適合度検定を使用するための条件はありますか？

適合度検定の使用条件は理論度数が全て５以上のときです。４以下のときは隣のセルと合わせて（プールして）全て５以上になるように調整（自由度の数がその分減ります）してから改めて、適合度検定を開始します。

このように標本の数が大きいときに良い近似ができることを数式を用いて説明しておきます。この考察では標本数nが大きいほど、確率piの最尤推定値の精度が良くなる考えをもとにしています。

以上からp値の計算法はピアソンのカイ２乗検定統計量Tに実現度数（観測度数）や理論度数（期待度数）を代入して計算した計算結果が起きる確率になります。このp値が小さいとTが計算した結果になることが起きる状況はあり得ないと考え、p値がεより小さいと帰無仮説は棄却されます。

カイ２乗検定（適合度検定）のまとめ
1.階級がK個の場合は、Tは自由度k-1のカイ２乗分布に従う。
2.未知パラメータがある場合は、その個数分だけ自由度から引く。
3.適合度検定の使用条件は理論度数が全て５以上のときです。

p値は得られたデータの希少性を表す数値が生じる確率なのですね。

p値は品質管理などでも耳にする言葉です。少しずつ慣れていきましょう。

志田龍太郎

東京大学修士→30代セミFIRE元数学教諭(麻布高など指導)/アクチュアリー数学,統計検定１級(2025年に再挑戦)/数検１級→高３・漢検１級→教諭時代に合格/ブログ＋SNS運営/AmazonAssociates連携

2025/01/18

データサイエンティスト検定リテラシーレベルの勉強法と学習の記録

2025/01/01

G検定は合格率は高いが難易度も高いので複数書籍での勉強法がおすすめ

2024/12/23

ITパスポート（情報処理技術者試験）の過去問を網羅する勉強方法

コメント欄コメントをキャンセル

他のおすすめ記事

2025/3/23

データサイエンティスト検定リテラシーレベルの勉強法と学習の記録

2025年3月14日にデータサイエンティスト検定（リテラシーレベル）を受験して8割を超えることができました。ここまでの学習法などをシェアします。 https://twitter.com/nananairu7/status/1900454086794789315 近年注目されているデータサイエンスの名前がついた有名なデータサイエンティスト検定（リテラシーレベル）について学習記録を交えた対策記事になります。対策書として最もオーソドックスな『最短突破データサイエンティスト検定（リテラシーレベル）公式リファレン ...

2025/3/25

G検定は合格率は高いが難易度も高いので複数書籍での勉強法がおすすめ

G検定の概要と学習方法 G検定の試験時間は120分で全て選択式の知識問題で自宅にてオンライン受験になります。受験費用は一般は12000円で学生は5000円になります。G検定はキーワードを覚えておくだけでは解けない問題も多く出題され、理解が重要視される検定です。問われていることは何か？を理解し、どう調べれば答えが見つかるかが分かるレベルに達すると、解ける問題が増えます。ディープラーニング→数理統計や機械学習→人工知能ディープラーニングの箇所が最も頻出で、人工知能になると頻度は少なくなります。法律・倫理の問 ...

2025/3/17

ITパスポート（情報処理技術者試験）の過去問を網羅する勉強方法

ITパスポート試験は情報処理技術者試験のことで、情報系の国家試験です。そのため学習すること自体に価値があります。この試験はITの内容だけでなく、会社に関する幅広い教養を身につけることができ、勉強していて楽しい試験です。情報処理技術者試験→基本情報技術者試験→応用情報技術者試験→（データサイエンス系なら）データベーススペシャリストなどと難易度が上がっていきます。そのため情報処理技術者試験（ITパスポート）はこれらの国家試験の入り口に上がる大事な試験です。企業でもITパスポートを持っている社員には待遇を与 ...

2024/12/14

アクチュアリー数学の公式チェックシート

アクチュアリー数学で必要な公式を過去問をベースに総整理しました。なお公式は『アクチュアリー試験　合格へのストラテジー　数学　第2版』を元にしております。本書はアクチュアリー数学受験のバイブルで受験者は必携の書です。確率 Cの公式負の二項定理積分公式など https://www.muscle-castle.com/actuary-math-workbook-chapter1/ 第１章二項分布、ポアソン分布負の二項分布、ファーストサクセス分布超幾何分布 https://www.muscle-cas ...

2024/12/10

アクチュアリー数学のシミュレーションの過去問を解説

アクチュアリー数学のシミュレーションの過去問を解説します。本章はモデリングの最終章であり、アクチュアリー数学の最終章でもあります。内容は逆関数法・棄却法・合成法・分散減少法の４つです。順に解説していきます。分散減少法では負の相関法と制御編療法を扱います。全体的なおすすめの公式・問題集は『アクチュアリー試験　合格へのストラテジー　数学　第2版』です。お手元に置いて本記事をご覧くだされば学習効率が上がります。逆関数法平成17年度問１（８）標準正規分布標準正規分布最初の問題にして逆関数法の最難関の難問 ...

多変量正規分布の期待値や分散や分散共分散行列から独立性や周辺分布の公式までわかりやすく解説

カイ２乗検定の例として同等性検定・独立性の検定・正確性の検定・マクネマー検定をわかりやすく解説