MLS-C01#1(modeling)

ある通販企業は購買履歴 200 万件を用いて再購入確率を予測する二値分類モデルを SageMaker AI で構築します。説明変数は 60 列の数値・カテゴリ混在で、欠損値や外れ値もある程度含まれます。学習速度と精度の両立を重視しつつ、ハイパーパラメータの調整余地が大きい組み込みアルゴリズムを選定したいと考えています。最も適切な選択肢はどれですか。

A. SageMaker AI Random Cut Forest を異常スコア計算に用い、スコア値を 0〜1 に正規化したうえで再購入確率と解釈します。
B. SageMaker AI Linear Learner を回帰モードで学習させ、推論結果をしきい値で 2 値化して再購入の有無を判定するパイプラインを組み、判定閾値はビジネス要件に合わせて随時調整します。
C. SageMaker AI k-means を k=2 で実行し、得られたクラスタ番号を再購入クラスのラベルとみなして本番推論に転用します。
D. SageMaker AI XGBoost を objective=binary:logistic で利用し、max_depth や eta を調整して再購入確率を予測します。

正解と解説ディスカッション 0

正解：D

正解の根拠

XGBoost は欠損値・外れ値にロバストで、表形式データの二値分類で広く第一選択となります。objective=binary:logistic で確率出力が得られ、max_depth や eta など調整余地が大きい点も要件に合致します。

アルゴリズム	主な用途	本問適合
XGBoost	表形式の分類/回帰	適合
Linear Learner	線形分類/回帰	非線形に弱い
k-means	教師なしクラスタリング	分類目的に不適
RCF	異常検知	確率出力ではない

不正解の理由

A: RCF は異常スコアを返す異常検知用で、再購入確率の予測には設計が不適切です。
B: 回帰モードでの二値化は Linear Learner の binary_classifier 用途を外しており非効率です。
C: k-means は教師なしで、購入有無のラベルを学習に活かせず精度が安定しません。

参考：SageMaker XGBoost

MLS-C01#1(modeling)

正解の根拠

不正解の理由

コメント

コメント

コメントするコメントをキャンセル

正解の根拠

不正解の理由

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル