MLS-C01#2(exploratory-analysis)
金融機関のアナリストは、口座残高列に少数の極端に大きい値が含まれることに気付きました。データは非対称で正規性が崩れており、四分位範囲を基準に外れ値を検出する手法を採用したいと考えています。最も適切な検出ルールはどれですか。
正解:B
正解の根拠
Tukey の IQR ルールは中央値と四分位数に基づく頑健な手法で、非正規分布や外れ値が混在するデータでも安定して機能します。Q1 − 1.5×IQR 未満、Q3 + 1.5×IQR 超を外れ値候補とします。
| 手法 | 前提 | 頑健性 |
|---|---|---|
| Z-score | 近似正規 | 低(外れ値で歪む) |
| IQR ルール | 分布を仮定しない | 高 |
| Isolation Forest | 多変量 | 中〜高 |
q1, q3 = df['bal'].quantile([0.25, 0.75])
iqr = q3 - q1
mask = (df['bal'] q3 + 1.5*iqr)不正解の理由
- A: Z-score は正規性を仮定するため非対称で裾の重い分布では適切に機能しません。
- C: 平均と分散自体が外れ値で歪み、最大最小を必ず除く運用は情報損失が大きいです。
- D: 中央値以下を外れ値とする論理は誤りで、距離が大きい点こそ候補とすべきです。

コメント