MLS-C01#1(exploratory-analysis)
あるEC企業のデータサイエンティストは、月次売上データの分布を確認しています。ヒストグラムは右側に長い裾を持ち、平均が中央値より大きく外れており、対数変換によって左右対称に近い形に修正できそうです。データの分布特性を最も適切に説明しているのはどれですか。
正解:A
正解の根拠
平均が中央値を上回り右側に裾が伸びる分布は正の歪度(right-skewed)であり、対数変換で歪みが緩和されます。これは売上や所得などの非負連続値で頻出します。
| 歪度 | 形状 | 有効な変換 |
|---|---|---|
| 正(>0) | 右裾長い | log, sqrt, Box-Cox |
| 負(<0) | 左裾長い | べき乗(x^2 など) |
| 0 | 対称 | 不要 |
import numpy as np
import pandas as pd
from scipy.stats import skew
s = skew(df['sales']) # > 0 で右裾
df['log_sales'] = np.log1p(df['sales'])不正解の理由
- B: 負の歪度は左裾が長い分布であり、平均<中央値となるため設定と矛盾します。
- C: 尖度は裾の重さを表す指標で、左右対称性を示す歪度とは別の統計量です。
- D: 平均と中央値が一致しないので正規分布とは言えず、変換不要との結論は誤りです。

コメント