回帰分析の検定と変数選択

スポンサーリンク

回帰分析の基礎

前回、前々回と回帰分析の基礎と題して、単回帰分析重回帰分析の基本的な内容についてまとめました。

回帰分析は統計解析のなかでも基本的な手法になるため、しっかり理解して実務で使えるようになりたいところです。一方、python や R のコードを使えば簡単に分析を行うことができますが、仕様に際してはその限界や前提条件についてしっかり理解した上で使うことが望ましいと言えます。

そこで、今回はさらに一歩進んで、回帰分析における変数選択の考え方についてまとめます。本記事では検定を用いた方法について解説し、次回は情報量規準を用いた変数選択手法についてまとめを行います。

回帰分析における変数選択手法の理解は、データサイエンティスト協会がまとめるスキルチェックver.4 の中でも、データサイエンス力 No. 58 で挙げられているものです。 

回帰分析の検定と変数選択

回帰分析にどのような変数を含めるのが良いか、どのようなモデルが望ましいかといった問いに答える方法として、検定や情報統計量を用いた変数選択といったものがあります。

本記事で扱うのはその前者、検定を用いた手法です。検定はひとつひとつの偏回帰係数について行うものと、モデル全体について行うものと大きく分けて二種類存在します。

検定を用いた変数選択は、単回帰分析、重回帰分析のいずれにおいても有効な方法です。ぜひ、概念や手法について理解を深めたうえで、実務に生かせるようになりましょう。

github.com

回帰分析の検定に関する参考文献

東京大学出版会から出ている『統計学入門』は入門的な内容でありながらも説明がしっかりしており、統計学の基本的な考え方や手法を学ぶ上で必携の書です。