MLS-C01#5(exploratory-analysis)

MLS-C01#5(exploratory-analysis)

あるヘルスケア企業のデータサイエンティストは、トレーニングデータが正規分布に従うかを視覚的に検証したいと考えています。理論分位点と標本分位点を比較するプロットを使って、点が直線上に並ぶかを確認したいです。最も適した可視化はどれですか。

ディスカッション 0

正解:C

正解の根拠

Q-Q(Quantile-Quantile)プロットは標本分位点と理論分布の分位点を散布し、直線に近ければ仮定した分布に従うと判断できる古典的手法です。正規性検証の第一手段として広く使われます。

可視化用途
Q-Q プロット分布の同定
ヒストグラム形状の概観
箱ひげ図外れ値と分散
import scipy.stats as stats
stats.probplot(df['x'], dist='norm', plot=plt)

不正解の理由

  • A: 棒グラフはカテゴリ集計用で、連続値の分布検証には適していません。
  • B: ヒストグラムだけでは正規性の厳密判定は難しく、ビン数依存で印象も変わります。
  • D: 散布図は2変数の関係を見る図で、単一変数の正規性検証には用いられません。

参考:Data Wrangler Visualization


コメント

コメント

コメントする

目次