重回帰分析と多重共線性
2023/08/28 追記:お問い合わせフォームより、多重共線性を確認する方法として VIF (Variance Inflation Factor) がある旨をインプットいただきましたので、ノートブックに反映しました。インプットいただいた方、どうもありがとうございました。
前回の記事では、情報量規準 (AIC / BIC) と回帰分析の変数選択についてまとめました。今回は重回帰分析を行う上で避けて通ることのできない、多重共線性を扱います。
多重共線性とは重回帰分析において、説明変数間の相関が高い場合、その標準誤差が大きくなってしばしば偏回帰係数が極端に大きな値を取ったり、符合が予想と逆転するなど、推定結果が不安定になることを言います。多重共線性は英語で multi colinearity ということから、マルチコと呼ばれることもります。
たとえば、年間消費支出額 を給与額 と賞与額 を説明変数として のように回帰モデルを組んだ場合、多重共線性を引き起こして異常な をもたらしかねません。賞与額は給与額の何か月分と定められていることが多く、両者には一般的に強い相関が認められるからです。
そのため、回帰モデルを組んだ際、説明変数間で多重共線性が起きていないかを確認するには、モデルを組む際に散布図を描いたり相関係数を計算するなどして、多重共線性の有無を事前に検討することが必要になります。
重回帰分析の多重強制性に関する Github
今回は Github 上でその検討の仕方や変数選択を行うにあたっての基礎的な方法をまとめました。
モデルの説明変数に多重共線性が確認された場合、原因となっている変数を取り除いたり、リッジ推定や主成分回帰など分析法を工夫するといった方法が挙げられます。後者の分析手法を工夫するやり方は今回のまとめのスコープ外になっていますが、別途項を設けてまとめようと考えています。
重回帰分析の多重共線性に関する参考文献
重回帰分析の多重共線性に関して、二冊参考文献を挙げておきます。どちらも基礎的な文献ですので、回帰分析以外の学習も含めて一読されることをお勧めします。