MLS-C01#5(exploratory-analysis)
あるヘルスケア企業のデータサイエンティストは、トレーニングデータが正規分布に従うかを視覚的に検証したいと考えています。理論分位点と標本分位点を比較するプロットを使って、点が直線上に並ぶかを確認したいです。最も適した可視化はどれですか。
正解:C
正解の根拠
Q-Q(Quantile-Quantile)プロットは標本分位点と理論分布の分位点を散布し、直線に近ければ仮定した分布に従うと判断できる古典的手法です。正規性検証の第一手段として広く使われます。
| 可視化 | 用途 |
|---|---|
| Q-Q プロット | 分布の同定 |
| ヒストグラム | 形状の概観 |
| 箱ひげ図 | 外れ値と分散 |
import scipy.stats as stats
stats.probplot(df['x'], dist='norm', plot=plt)不正解の理由
- A: 棒グラフはカテゴリ集計用で、連続値の分布検証には適していません。
- B: ヒストグラムだけでは正規性の厳密判定は難しく、ビン数依存で印象も変わります。
- D: 散布図は2変数の関係を見る図で、単一変数の正規性検証には用いられません。

コメント