MLS-C01#2(exploratory-analysis)

MLS-C01#2(exploratory-analysis)

金融機関のアナリストは、口座残高列に少数の極端に大きい値が含まれることに気付きました。データは非対称で正規性が崩れており、四分位範囲を基準に外れ値を検出する手法を採用したいと考えています。最も適切な検出ルールはどれですか。

ディスカッション 0

正解:B

正解の根拠

Tukey の IQR ルールは中央値と四分位数に基づく頑健な手法で、非正規分布や外れ値が混在するデータでも安定して機能します。Q1 − 1.5×IQR 未満、Q3 + 1.5×IQR 超を外れ値候補とします。

手法前提頑健性
Z-score近似正規低(外れ値で歪む)
IQR ルール分布を仮定しない
Isolation Forest多変量中〜高
q1, q3 = df['bal'].quantile([0.25, 0.75])
iqr = q3 - q1
mask = (df['bal']  q3 + 1.5*iqr)

不正解の理由

  • A: Z-score は正規性を仮定するため非対称で裾の重い分布では適切に機能しません。
  • C: 平均と分散自体が外れ値で歪み、最大最小を必ず除く運用は情報損失が大きいです。
  • D: 中央値以下を外れ値とする論理は誤りで、距離が大きい点こそ候補とすべきです。

参考:Data Wrangler Outlier Detection


コメント

コメント

コメントする

目次