MLS-C01#1(modeling)
ある通販企業は購買履歴 200 万件を用いて再購入確率を予測する二値分類モデルを SageMaker AI で構築します。説明変数は 60 列の数値・カテゴリ混在で、欠損値や外れ値もある程度含まれます。学習速度と精度の両立を重視しつつ、ハイパーパラメータの調整余地が大きい組み込みアルゴリズムを選定したいと考えています。最も適切な選択肢はどれですか。
正解:D
正解の根拠
XGBoost は欠損値・外れ値にロバストで、表形式データの二値分類で広く第一選択となります。objective=binary:logistic で確率出力が得られ、max_depth や eta など調整余地が大きい点も要件に合致します。
| アルゴリズム | 主な用途 | 本問適合 |
|---|---|---|
| XGBoost | 表形式の分類/回帰 | 適合 |
| Linear Learner | 線形分類/回帰 | 非線形に弱い |
| k-means | 教師なしクラスタリング | 分類目的に不適 |
| RCF | 異常検知 | 確率出力ではない |
不正解の理由
- A: RCF は異常スコアを返す異常検知用で、再購入確率の予測には設計が不適切です。
- B: 回帰モードでの二値化は Linear Learner の binary_classifier 用途を外しており非効率です。
- C: k-means は教師なしで、購入有無のラベルを学習に活かせず精度が安定しません。

コメント