MLS-C01#1(modeling)

MLS-C01#1(modeling)

ある通販企業は購買履歴 200 万件を用いて再購入確率を予測する二値分類モデルを SageMaker AI で構築します。説明変数は 60 列の数値・カテゴリ混在で、欠損値や外れ値もある程度含まれます。学習速度と精度の両立を重視しつつ、ハイパーパラメータの調整余地が大きい組み込みアルゴリズムを選定したいと考えています。最も適切な選択肢はどれですか。

ディスカッション 0

正解:D

正解の根拠

XGBoost は欠損値・外れ値にロバストで、表形式データの二値分類で広く第一選択となります。objective=binary:logistic で確率出力が得られ、max_deptheta など調整余地が大きい点も要件に合致します。

アルゴリズム主な用途本問適合
XGBoost表形式の分類/回帰適合
Linear Learner線形分類/回帰非線形に弱い
k-means教師なしクラスタリング分類目的に不適
RCF異常検知確率出力ではない

不正解の理由

  • A: RCF は異常スコアを返す異常検知用で、再購入確率の予測には設計が不適切です。
  • B: 回帰モードでの二値化は Linear Learner の binary_classifier 用途を外しており非効率です。
  • C: k-means は教師なしで、購入有無のラベルを学習に活かせず精度が安定しません。

参考:SageMaker XGBoost


コメント

コメント

コメントする

目次