主成分分析をもう少し踏み込んで考えてみよう
まずは以下の表を見てください。
数学 国語 学生1 80 40 学生2 50 50 学生3 60 70 学生4 30 90 学生5 50 40
この表から、例えば「学生1は数学が得意だが国語は苦手である」逆に「学生2は国語が得意だが数学は苦手である」ということが分かりますよね。しかし次の表ではどうでしょうか。
項目1 項目2 項目3 項目4 項目5 項目6 学生1 7 7 2 2 5 6 学生2 5 4 5 5 6 6 学生3 3 6 4 5 4 4 学生4 5 2 7 4 7 7 学生5 6 3 5 6 2 3 ・
・
・・
・
・・
・
・・
・
・・
・
・・
・
・・
・
・
項目1:どちらかというと無口な方だ
項目2:人とは積極的に話す方だ
項目3:突然、悲しくなることがある
項目4:人に言われるといつまでもそれが気になる
項目5:外に出て遊ぶのが好きである
項目6:歩くのは速い方である
以上を7件法で尋ねた。
変数の数が2つや3つであればそれぞれの得点を見て「学生1は〜である」といったような特徴が分かりますが、変数が6個、7個、・・・、10個などと多くなってくると表にまとめられたデータから各学生の特徴を把握するのはまず不可能といえるでしょう。
具体的には、上の質問項目を見てみると、項目1,2,5,6は外向性を表すような質問のようであり、項目2,4は内向性を表すような質問のようであります。しかし(例えば)学生1の結果を見ても彼が外向性なのか内向性なのか判断するのは難しいです。
しかし主成分分析によって主成分や主成分得点を求めることによって、項目の特徴を大まかに分類したり(因子分析と同じように)、各々の学生がどのような特徴を持っているかを知ることができるようになります。
主成分分析を行う際に我々がするべきことは、
の3つですが、いずれもコンピュータを用いれば簡単にそれぞれの値を算出することができます。ただし、コンピュータで求めた数値がどのような意味を持つのかということをしっかりと理解してください。それでは順番に説明していきましょう。
今回、使用するデータは以下のものです。
行動力(x1) 積極性(x2) 洞察力(x3) 社員No.1 84 66 66 社員No.2 77 52 53 社員No.3 97 64 49 社員No.4 67 85 58 社員No.5 80 76 89 社員No.6 70 60 58 社員No.7 62 57 62 社員No.8 71 50 93 社員No.9 67 47 61 社員No.10 57 38 53 社員No.11 73 56 58 社員No.12 54 61 54 平均 71.5833 59.3333 68.8333
もし詳しい計算手順が知りたいのであれば『よくわかる行列・ベクトルの基本と仕組み』秀和システムがおススメです。とりあえずコンピュータを使って以下のような主成分が求められたとします。
固有ベクトル 第1主成分 第2主成分 第3主成分 行動力(x1) 0.6340 -0.3755 0.6760 積極性(x2) 0.6634 -0.1852 -0.7250 洞察力(x3) 0.3974 0.9081 0.1317
○第1主成分
○第2主成分
○第3主成分
以上の式(固有ベクトル)をもとに主成分得点を求めることができます。例えば主成分がu=ax+by+czで表されるとき、i番目のサンプルの主成分得点vは以下のようにして求められます。
この式にそれぞれの値を代入して主成分得点を求めると次のようにまとめられます。
主成分得点 主成分 1 主成分 2 主成分 3 社員No.1 1.0996 -0.2826 0.3536 社員No.2 -0.3752 -0.7037 0.6336 社員No.3 1.2028 -1.7696 1.0451 社員No.4 0.9604 -0.5446 -1.7724 社員No.5 2.0647 1.1945 -0.2277 社員No.6 -0.1871 -0.2744 -0.1736 社員No.7 -0.6558 0.2819 -0.4184 社員No.8 0.3402 2.1179 0.7850 社員No.9 -0.9410 0.2051 0.4274 社員No.10 -2.1717 0.1311 0.2986 社員No.11 -0.2366 -0.3106 0.2252 社員No.12 -1.1003 -0.0449 -1.1765
固有値が求められていれば寄与率の計算は簡単です。今回のデータを使った場合の固有値は次のようになります。
固有値 固有値 第1主成分 1.4028 第2主成分 0.9298 第3主成分 0.6673 合計 2.9999
○第1主成分の寄与率は
1.4028/2.9999=0.4676=46.76%
(累積寄与率)=46.76%
○第2主成分の寄与率は
0.9298/2.9999=0.3099=30.99%
(累積寄与率)=46.76%+30.99%=77.75%
○第3主成分の寄与率は
0.6673/2.9999=0.2224=22.24%
(累積寄与率)=77.75%+22.24%=99.99%
注:第3主成分の累積寄与率が100%にならなかったのは途中で小数点を切り捨てて計算したためです。
まずは累積寄与率を見て何番目までの主成分(合成変量)を採用するかを決定する必要があります。何番目までの主成分を採用するかは、一般的に累積寄与率が0.8(80%)であることを基準とすることが多いです。ただしこの値はあくまでも目安であって、値自体に意味はないので注意しましょう。
主成分分析は変数の数だけ主成分(合成変量)が生成されますが、それらの中から情報量の大きい少数の主成分を見つけることが目的なので、累積寄与率が高いからといって闇雲に多くの主成分を採用するのは危険です(そのようなことに意味はない)。
したがって、今回の分析例でも第2主成分までを採用すれば十分といえるでしょう。
今回の分析から第1主成分と第2主成分は次のようになりました。
第1主成分g1について考えてみると、x1(行動力)とx2(積極性)の係数が高いので「行動型の人材」ということがいえるかもしれません。また第2主成分g2については、x3(洞察力)の係数が高くなっていることから「思考型の人材」といえるかもしれません。
このように3つの変量(変数)を行動型と思考型という2つの因子に分別するという点に関しては因子分析と非常によく似ている手法であるといえます。
主成分得点からはそれぞれの社員の特徴を把握することができます。主成分得点をまとめた表から実際に何人かの社員の特徴をまとめてみると、
などといった感じでしょうか。
主成分得点 主成分 1(行動型) 主成分 2(思考型) 社員No.1 1.0996 -0.2826 社員No.2 -0.3752 -0.7037 社員No.3 1.2028 -1.7696 社員No.4 0.9604 -0.5446 社員No.5 2.0647 1.1945 社員No.6 -0.1871 -0.2744 社員No.7 -0.6558 0.2819 社員No.8 0.3402 2.1179 社員No.9 -0.9410 0.2051 社員No.10 -2.1717 0.1311 社員No.11 -0.2366 -0.3106 社員No.12 -1.1003 -0.0449
各得点をプロットすると以下のようになります。図からも分かるように、例えば社員No.8は第2主成分の軸(縦軸)に近い所にあるので思考型の人材であることが視覚的に判断することができます。
