MLS-C01#1(exploratory-analysis)

MLS-C01#1(exploratory-analysis)

あるEC企業のデータサイエンティストは、月次売上データの分布を確認しています。ヒストグラムは右側に長い裾を持ち、平均が中央値より大きく外れており、対数変換によって左右対称に近い形に修正できそうです。データの分布特性を最も適切に説明しているのはどれですか。

ディスカッション 0

正解:A

正解の根拠

平均が中央値を上回り右側に裾が伸びる分布は正の歪度(right-skewed)であり、対数変換で歪みが緩和されます。これは売上や所得などの非負連続値で頻出します。

歪度形状有効な変換
正(>0)右裾長いlog, sqrt, Box-Cox
負(<0)左裾長いべき乗(x^2 など)
0対称不要
import numpy as np
import pandas as pd
from scipy.stats import skew
s = skew(df['sales'])  # > 0 で右裾
df['log_sales'] = np.log1p(df['sales'])

不正解の理由

  • B: 負の歪度は左裾が長い分布であり、平均<中央値となるため設定と矛盾します。
  • C: 尖度は裾の重さを表す指標で、左右対称性を示す歪度とは別の統計量です。
  • D: 平均と中央値が一致しないので正規分布とは言えず、変換不要との結論は誤りです。

参考:SageMaker Data Wrangler Transform


コメント

コメント

コメントする

目次