話題の検索ワード  

<<目次へ


主成分分析



 主成分分析はデータ全体の見通しを良くするための方法であるといえるでしょう。つまり、分散が最大になるような立場を探し、そこからデータを分析するということです。したがって、データ同士の相関がない(無相関)場合は主成分分析を行うべきではないといえます。

 主成分分析で求めるものは、@主成分、A寄与率・累積寄与率、B主成分得点といったところでしょうか。いずれも、Rを使用すれば間単にでてきますが、それぞれの数値がどのような意味を持つのか、またどのようにして求められるのかということを簡単でも知っておく必要があります。ちなみに、Excelのアドインソフトが株式会社エスミから購入できますが、「う〜ん、これらは便利すぎて反則ではないだろうか?」と感じる部分もあります(悪い意味でですが)。4万円もあれば購入できるので、購入を検討してみるのも良いでしょう。



T 主成分を求めてみる

 主成分とは、u=ax+by+cz(これは3変量の場合で、一般式はu=a1x1+a2x2+a3x3+......+anxn)の"u"のことで、"a,b,c"は固有ベクトルです。つまり、主成分uは固有ベクトルa,b,cを求めればいいわけです。実際の計算はRに任せましょう(Rでやる場合)。

 Rの出力結果から、第1主成分はu=-0.75x+-0.64y-0.09zということになります。第2主成分はg=0.17p-0.05q-0.98rとなります。



U 寄与率と累積寄与率は何を意味するか

 寄与率が1に近ければ、主成分が資料をよく説明しているといえます。また、累積寄与率は何番目までの主成分を用いるかを判断するのに役立ちます。何番目までの主成分を採用するかは、一般に累積寄与率が0.8(80%)です。

 上の結果から(contribution=寄与率、cum.contribution=累積寄与率)、第2主成分までを採用すればよいことが分かります。

 寄与率は(主成分の分散値)/(各変量の分散の和)で求められますが、これは(主成分の分散値)/(資料全体の散らばり量)といいかえることができます。その際に(分散について)重要なことがあるので、それを紹介しましょう。

 つまり、資料全体の散らばり量=各変量の分散の和という関係が成り立つわけです。



V 主成分得点を求めてみる

 主成分がu=ax+by+czのとき、主成分得点は次のように定義されています。

 実際には、Rで主成分得点を計算することができます。$fs=主成分得点ですね。

 また、使用するソフトウェアによっては、固有値の符号が違うので結果的に主成分得点も異なったものになる場合がありますが、問題はありません。