MLS-C01#4(exploratory-analysis)

MLS-C01#4(exploratory-analysis)

ある製造業のデータサイエンティストは、回帰モデルに使う特徴量間で多重共線性が疑われると指摘されました。各説明変数に対する分散拡大係数を計算して、共線性の強さを定量化したいと考えています。一般的にどの値を超えると警戒すべきとされますか。

ディスカッション 0

正解:D

正解の根拠

分散拡大係数(VIF)は VIF_i = 1 / (1 − R_i^2) で定義され、ある説明変数を他の説明変数で回帰した決定係数 R_i^2 が高いほど大きくなります。一般的に VIF > 10 で多重共線性が強いと判断します。

VIF解釈対処
< 5問題なしそのまま使用可
5〜10注意変数選択を検討
> 10強い共線性除外/PCA/正則化
from statsmodels.stats.outliers_influence import variance_inflation_factor
vifs = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]

不正解の理由

  • A: p 値は係数の有意性を表し、説明変数同士の共線性を直接示す指標ではないです。
  • B: VIF は 1 以上の値で、0.5 を下回ることはなく閾値設定として誤りです。
  • C: 決定係数の二乗根は単に相関の絶対値で、多重共線性判定の指標ではありません。

参考:Data Wrangler Multicollinearity


コメント

コメント

コメントする

目次