因子分析を主成分分析との違いを考えながらわかりやすく解説します

2024年2月14日

多変量解析の中の集大成的な難易度である因子分析を解説します。

まとめという感じですね。どのような感じで難しいのでしょうか。

因子分析は主成分分析と似ているところがあります。そして変数を標準化するというパス解析的な考えもあります。また、回転をさせるところで判別分析的な考えも出てきます。当然、重回帰分析の内容も出てきますので、多変量解析の集大成的なレベルとなります。

ここでいう多変量解析とは永田先生の『多変量解析法入門』を指しています。本書は統計検定を考えている方に強くおすすめできる素晴らしい教材です。

多変量解析法入門 (ライブラリ新数学大系 E20)

著:永田靖, 著:棟近雅彦

口コミを見る

Amazon

楽天市場

Yahooショッピング

メルカリ

ポチップ

因子分析と主成分分析との違い（ともにエクセルで用います）

因子分析について説明していきます。まず因子分析は主成分分析と似ている考えが多いので、主成分分析について未学習の方は、こちらの記事をおすすめいたします。

主成分分析では、多くの変数の情報をできるだけ少ない次元で解釈することを目的とし、観測変数の１次結合の形をした主成分を構成しました。
因子分析では、多数の観測変数の背後に少数の潜在因子を想定し、それによる観測変数間に相関関係が生じていると考え、それをモデル化して解析を進めます。

「潜在因子を想定すること」、「モデル化して分析すること」が主成分分析との違いなのですね！

因子分析（pythonでも用います）のモデル化

まずは生の変数を標準化した量uが与えられたとします。

このデータで次のモデルを想定します。これを因子分析のモデルといいます。

ただし、因子分析では記号の使用について注意点があります。それはサンプル番号によって記号が異なるか、それともサンプル番号によらずに記号が同一かということを考える点です。

サンプル番号によらない記号は、まずは共通因子です。共通因子とは例えば、理系によるか、文系によるかなどの因子のことです。また共通因子に負荷を与えている定数のことを因子負荷量といいます。これは定数です。
サンプル番号に依存する記号は、まずは因子得点です。これは上での共通因子に対応する概念です。そしてεはサンプル番号に依存するので独自因子といいます。誤差のようなものです。

ここで大事な注意点がありますので、お読みください。標準化や無相関の仮定をここで入れます。

共通因子はすべて標準化しています。
独自因子のそれぞれの期待値は０で分散はdの２乗と変数によって固定されています。
共通因子間、独自因子間は無相関です。
共通因子間と独自因子間も無相関とします。

因子分析での目標を教えてください。

因子分析の目標は、因子負荷量の推定や、因子得点の推定を行うことです。そして因子の解釈を行うことです。

そのために記号間での関係を１つ導いておきます。この結果が後でとても大事になります。

すなわち因子負荷量は標準化された変数と共通因子が分かれば算出できるということです。

因子分析（rでも用います）の共通性と独自性

次に因子分析を行列表示して考えていきます。それにより、因子負荷量や因子得点の推定ができるようになります。そしてここがメインとなります。

先ほどの図04の母相関係数とは意味が異なりますのでご注意ください。図05は各成分が因子負荷量で構成される母相関係数行列を作るためのものです。

このようにして各母相関係数を並べた母相関係数行列Πを作成します。

Πの成分はすべてbで構成されるものになりますので、図06の右にある行列Bと対角行列Dを用いて表現します。この式は後でとても大事になりますので覚えておいてください。

ここで共通性と独自性という概念が登場します。まずは図07をご覧ください。

ここで図07の説明を補足します。母相関係数行列Πの対角成分に注目します。変数hは変数uの変動のうち共通因子によって説明できるので共通性と呼びます。
またdの方は共通因子では説明できないばらつきの大きさなのでuの独自性といいます。

因子分析（英語はfactor analysis）における因子負荷量の推定

ここから難易度が上がります。適宜、主成分分析の記事を参照しながらお読みください。

共通因子の個数の設定

図02では共通因子の個数を２としましたが、実際の解析では共通因子の設定が第１に行われます。それにより因子分析のモデルが定めるからです。共通因子の個数の設定は主成分分析のときと同様に考えて、標本相関係数行列（つまりΠの推定量）の１より大きな固有値の個数とします。

因子負荷量の推定（主因子法）

因子負荷量の推定はさまざまな方法がありますが、この記事では主因子法を紹介します。
この方法はΠーDの対角成分の推定精度を高め、かつ、ニュートン法のように感覚的にもわかりやすい方法であるからです。

直接、対角成分を推定しにいくと精度が悪くなります。そのため図06で登場した行列の関係式を用いることを考えます。

それでは主因子法を詳しく説明します。ここが本記事のメイン部分となります。図08の中盤の式（ΠーDの推定）で行列のスペクトル分解の知識を用いています。

行列の階数についてrank(A)≧rank(AB)の知識も用いて、①の右辺の階数が２であることを導いています。

行列のここら辺の内容をしっかり理解するための参考書としては『線形代数学』がおすすめです。線形代数の書籍として理解のしやすさと到達点の高さを考えるとかなり完成度が高い本です。

線形代数学［新装版］

日本評論社

口コミを見る

Amazon

楽天市場

Yahooショッピング

メルカリ

ポチップ

それでは図09をご覧ください。

これで行列B、つまり因子負荷量を推定できました。それと同時にΠーDの対角成分も推定できたことになります。

固有値が大事な因子分析における因子の解釈

因子分析の難しさは、因子の解釈があるせいともいえます。いよいよ記事の終盤です。判別分析で行なったように回転の考えを導入します。

回転を行なって何が変わり、何が変わらないか？を意識して読み進めてください。結論は図12に載せます。

この段階で☆の式に注目してください。とても大事です。

図10を頼りに、回転後の各文字の性質を調べます。

ここで図04で学んだ各変数間の関係が回転後にも成り立つかを吟味します。そのためには回転前のときの前提条件が成立していればOKです。

なるほど！だから図09~12までの流れがあったのですね！

つまり因子分析では回転を行なっても因子の解釈（共通性の推定値は回転によって不変（図09の☆の式より））には影響がないということです。これは判別分析のときと同様に軸を回転させても因子の解釈は変わらないことは自然と分かると思います。ということはどのような回転を行うと、因子の解釈がしやすいか？という問題になります。

詳しい回転の内容は『ようこそ「多変量解析」クラブへ何をどう計算するのか』にて解説されており、おすすめです。

この問題は図13に示すバリマックス基準によって解決されます。バリマックス基準によれば、因子負荷量がゼロに近いものとゼロから大きく離れるものに分離できるためです。

ようこそ「多変量解析」クラブへ　何をどう計算するのか (ブルーバックス)

著:小野田博一

口コミを見る

Amazon

楽天市場

Yahooショッピング

メルカリ

ポチップ

因子得点の推定

因子得点を推定するには重回帰分析の知識を用います。

この最後の行列のSの説明をお願いします。具体的にどう計算するのですか？

了解です。図15にて説明します。注意点として主成分分析のときの流れを踏襲して、不偏分散を考えているので、いろんな場面でnー１で割っていることにご注意ください。

このようにして偏回帰係数を求めることができました。そのようにして求めた予測式（図14の①式など）の各uに各サンプルの観測値を代入すれば、因子得点を推定することができます。因子得点の利用の仕方は、主成分得点の利用と同様です。

因子分析の寄与率と累積寄与率

先ほどの回転のお話に戻るのですが、回転によって変わってしまうものの例はありますか？

わかりやすいのが寄与率と累積寄与率の話です。このうちのどちらかが回転によって変わってしまいます。

なるほど！寄与率は回転によって変わってしまいますが、図12の結論を思い出すと累積寄与率は回転によって変わらないですね！

回転によって変わるものと変わらないものがありました。因子分析はとても難しいので、何度も読み返してくだされば幸いです。

志田龍太郎

東京大学修士→30代セミFIRE元数学教諭(麻布高など指導)/アクチュアリー数学,統計検定１級(2025年に再挑戦)/数検１級→高３・漢検１級→教諭時代に合格/ブログ＋SNS運営/AmazonAssociates連携

2025/01/18

データサイエンティスト検定リテラシーレベルの勉強法と学習の記録

2025/01/01

G検定は合格率は高いが難易度も高いので複数書籍での勉強法がおすすめ

2024/12/23

ITパスポート（情報処理技術者試験）の過去問を網羅する勉強方法

志田龍太郎の記事をもっと見る

-学習
-因子分析, 多変量解析, 統計検定, 統計検定１級

コメント欄コメントをキャンセル

他のおすすめ記事

2025/3/23

データサイエンティスト検定リテラシーレベルの勉強法と学習の記録

2025年3月14日にデータサイエンティスト検定（リテラシーレベル）を受験して8割を超えることができました。ここまでの学習法などをシェアします。 https://twitter.com/nananairu7/status/1900454086794789315 近年注目されているデータサイエンスの名前がついた有名なデータサイエンティスト検定（リテラシーレベル）について学習記録を交えた対策記事になります。対策書として最もオーソドックスな『最短突破データサイエンティスト検定（リテラシーレベル）公式リファレン ...

2025/3/25

G検定は合格率は高いが難易度も高いので複数書籍での勉強法がおすすめ

G検定の概要と学習方法 G検定の試験時間は120分で全て選択式の知識問題で自宅にてオンライン受験になります。受験費用は一般は12000円で学生は5000円になります。G検定はキーワードを覚えておくだけでは解けない問題も多く出題され、理解が重要視される検定です。問われていることは何か？を理解し、どう調べれば答えが見つかるかが分かるレベルに達すると、解ける問題が増えます。ディープラーニング→数理統計や機械学習→人工知能ディープラーニングの箇所が最も頻出で、人工知能になると頻度は少なくなります。法律・倫理の問 ...

2025/3/17

ITパスポート（情報処理技術者試験）の過去問を網羅する勉強方法

ITパスポート試験は情報処理技術者試験のことで、情報系の国家試験です。そのため学習すること自体に価値があります。この試験はITの内容だけでなく、会社に関する幅広い教養を身につけることができ、勉強していて楽しい試験です。情報処理技術者試験→基本情報技術者試験→応用情報技術者試験→（データサイエンス系なら）データベーススペシャリストなどと難易度が上がっていきます。そのため情報処理技術者試験（ITパスポート）はこれらの国家試験の入り口に上がる大事な試験です。企業でもITパスポートを持っている社員には待遇を与 ...

2024/12/14

アクチュアリー数学の公式チェックシート

アクチュアリー数学で必要な公式を過去問をベースに総整理しました。なお公式は『アクチュアリー試験　合格へのストラテジー　数学　第2版』を元にしております。本書はアクチュアリー数学受験のバイブルで受験者は必携の書です。確率 Cの公式負の二項定理積分公式など https://www.muscle-castle.com/actuary-math-workbook-chapter1/ 第１章二項分布、ポアソン分布負の二項分布、ファーストサクセス分布超幾何分布 https://www.muscle-cas ...

2024/12/10

アクチュアリー数学のシミュレーションの過去問を解説

アクチュアリー数学のシミュレーションの過去問を解説します。本章はモデリングの最終章であり、アクチュアリー数学の最終章でもあります。内容は逆関数法・棄却法・合成法・分散減少法の４つです。順に解説していきます。分散減少法では負の相関法と制御編療法を扱います。全体的なおすすめの公式・問題集は『アクチュアリー試験　合格へのストラテジー　数学　第2版』です。お手元に置いて本記事をご覧くだされば学習効率が上がります。逆関数法平成17年度問１（８）標準正規分布標準正規分布最初の問題にして逆関数法の最難関の難問 ...

グラフィカルモデリングで独立グラフを用いて多変量正規分布の条件付き独立の理解を深める方法

正準相関分析の考え方と推定法を主成分分析と比べながら解説