回帰分析の変数選択と情報量規準
前回の記事では、回帰分析の検定と変数選択の基本的な内容についてまとめました。
今回はその続編として、AIC (赤池情報量規準) や BIC (ベイズ情報量規準) といった情報量規準を用いた回帰分析の変数選択手法についてまとめました。また、AIC の理論の前提ともなっているカルバック・ライブラー情報量についても説明を加えています。
AIC や BIC をはじめとした情報量規準は、データサイエンティスト協会のスキルチェックにおいても「データサイエンス力」の No. 59 で定められている項目です。また、カルバック・ライブラー情報量は同じく「データサイエンス力」の No. 17 で触れられています。
これらの理論を理解し、その利用法を習得することでより良い回帰モデルを組むスキルは向上します。なんとなく説明変数を選んでいるレベルから、統計学の理論に基づいた変数選択手法を取れるようになるためです。
今回のまとめでは、多数ある情報量規準のうち代表的な AIC と BIC に絞ってまとめを行っています。
回帰分析の情報量規準に関する参考文献
情報量規準については東京大学出版会から出ている『統計学入門』にも記されておらず、その意味では初学者の目に触れにくいものであるかもしれません。
上で挙げた Github のコードでは最下部に参考文献としていくつかの論文や大学の先生が書かれた記事を載せてあります。情報量規準についてより深く学びたい方はそれらの文献をぜひ参考にしてみてください。