MENU

会員登録（無料）

MLS-C01#4(exploratory-analysis)

この問題のディスカッション

MLS-C01#4(exploratory-analysis)

ある製造業のデータサイエンティストは、回帰モデルに使う特徴量間で多重共線性が疑われると指摘されました。各説明変数に対する分散拡大係数を計算して、共線性の強さを定量化したいと考えています。一般的にどの値を超えると警戒すべきとされますか。

A. p 値が 0.05 を下回るときに必ず多重共線性が確定すると判断します。
B. VIF が 0.5 を下回ると多重共線性が強いと判定するのが標準的です。
C. 決定係数の二乗根が 0.1 未満なら共線性が強いと結論できます。
D. VIF が 10 を超えると多重共線性が強い可能性が高いと判断されます。

正解と解説ディスカッション 0

正解：D

正解の根拠

分散拡大係数（VIF）は VIF_i = 1 / (1 − R_i^2) で定義され、ある説明変数を他の説明変数で回帰した決定係数 R_i^2 が高いほど大きくなります。一般的に VIF > 10 で多重共線性が強いと判断します。

VIF	解釈	対処
< 5	問題なし	そのまま使用可
5〜10	注意	変数選択を検討
> 10	強い共線性	除外/PCA/正則化

from statsmodels.stats.outliers_influence import variance_inflation_factor
vifs = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]

不正解の理由

A: p 値は係数の有意性を表し、説明変数同士の共線性を直接示す指標ではないです。
B: VIF は 1 以上の値で、0.5 を下回ることはなく閾値設定として誤りです。
C: 決定係数の二乗根は単に相関の絶対値で、多重共線性判定の指標ではありません。

参考：Data Wrangler Multicollinearity

コメント

コメント

コメントするコメントをキャンセル