【MLS-C01】WEB問題集:モデリング編

WEB問題集

MLS-C01#1(modeling)

ある通販企業は購買履歴 200 万件を用いて再購入確率を予測する二値分類モデルを SageMaker AI で構築します。説明変数は 60 列の数値・カテゴリ混在で、欠損値や外れ値もある程度含まれます。学習速度と精度の両立を重視しつつ、ハイパーパラメータの調整余地が大きい組み込みアルゴリズムを選定したいと考えています。最も適切な選択肢はどれですか。

ディスカッション 0

正解:D

正解の根拠

XGBoost は欠損値・外れ値にロバストで、表形式データの二値分類で広く第一選択となります。objective=binary:logistic で確率出力が得られ、max_deptheta など調整余地が大きい点も要件に合致します。

アルゴリズム主な用途本問適合
XGBoost表形式の分類/回帰適合
Linear Learner線形分類/回帰非線形に弱い
k-means教師なしクラスタリング分類目的に不適
RCF異常検知確率出力ではない

不正解の理由

  • A: RCF は異常スコアを返す異常検知用で、再購入確率の予測には設計が不適切です。
  • B: 回帰モードでの二値化は Linear Learner の binary_classifier 用途を外しており非効率です。
  • C: k-means は教師なしで、購入有無のラベルを学習に活かせず精度が安定しません。

参考:SageMaker XGBoost

MLS-C01#2(modeling)

あるオンライン書店が利用者と書籍の購入ログを基にレコメンドモデルを SageMaker AI で構築します。ユーザー ID と書籍 ID は数百万規模で疎な行列を形成し、明示的な評価値はなく購入有無のみが分かります。協調フィルタリングに近い形で潜在因子を学習する組み込みアルゴリズムを採用したいと考えています。最も適切な選択肢はどれですか。

ディスカッション 0

正解:B

正解の根拠

Factorization Machines は高次元かつ疎な特徴量に強く、ユーザー × アイテムのワンホット表現から潜在因子を学習する協調フィルタリング向けアルゴリズムです。predictor_type=binary_classifier で購入有無のような二値ターゲットを扱えます。

アルゴリズム疎行列対応潜在因子
Factorization Machines強いあり
Linear Learner可だが交互作用なしなし
RCF異常検知なし
k-NN距離計算が高コストなし

不正解の理由

  • A: Linear Learner は ID 同士の交互作用を学習できず、疎行列のレコメンドには不向きです。
  • C: RCF は異常検知用で、ユーザーとアイテム間の嗜好を表現できず推薦の代用になりません。
  • D: k-NN は数百万 ID 規模では距離計算コストが膨大で、実用的ではありません。

参考:SageMaker Factorization Machines

MLS-C01#3(modeling)

ある電力会社は数千台のセンサーから 5 分間隔で計測される時系列を用いて、向こう 24 時間の需要を地域別に予測するモデルを構築したいと考えています。地域ごとに季節性や祝日効果が異なり、関連する複数系列をまとめて学習させたいです。SageMaker AI で最も適した選択肢はどれですか。

ディスカッション 0

正解:A

正解の根拠

DeepAR は複数の関連時系列を同時に学習する RNN ベースの予測モデルで、地域ごとの季節性や祝日特徴 (cat 特徴量、dynamic_feat) を活用できます。context_length は履歴の参照長、prediction_length は予測区間で、需要の周期に合わせて調整します。

項目DeepARLinear Learner
多系列共有学習可能困難
季節性RNN で表現明示的特徴必要
確率予測分位点出力点推定

不正解の理由

  • B: Linear Learner は系列間の共有構造や非線形な季節性を表現できず、精度が頭打ちになりがちです。
  • C: k-means は教師なしクラスタリングで、将来の数値予測そのものを目的としていません。
  • D: BlazingText は単語埋め込み・テキスト分類用で、数値時系列の予測には設計が異なります。

参考:SageMaker DeepAR

MLS-C01#4(modeling)

あるクレジット会社は決済トランザクションを 1 秒あたり数千件処理しており、不正の疑いがある取引をリアルタイムに検出したいと考えています。ラベル付きの不正データはごく一部しかなく、大部分は正常取引です。教師なしで異常スコアを返す SageMaker AI 組み込みアルゴリズムとして最も適切なのはどれですか。

ディスカッション 0

正解:C

正解の根拠

Random Cut Forest (RCF) は教師なし異常検知の組み込みアルゴリズムで、各データ点に異常スコアを返します。num_trees でアンサンブルの安定性、num_samples_per_tree で各木が見るサブサンプルの多様性を制御します。

観点RCFk-means
異常スコア標準出力距離を間接利用
クラスタ前提不要必要
高次元耐性強い次元の呪いに弱い

不正解の理由

  • A: k-means は球状クラスタを仮定し、複雑な不正パターンの異常検知には適合度が低くなりがちです。
  • B: XGBoost は教師ありで、十分なラベル不正データが揃わない条件では精度が確保しにくいです。
  • D: Factorization Machines は推薦や疎な分類向けで、教師なし異常検知の用途とは合致しません。

参考:SageMaker Random Cut Forest

MLS-C01#5(modeling)

ある研究機関は数百万件のニュース記事から類似記事を高速に検索したいと考えています。各記事を 100 次元の埋め込みベクトルに変換した後、組み込みアルゴリズムで距離ベースの分類・最近傍検索を行いたいです。SageMaker AI 組み込みアルゴリズムとして最も適切な選択肢はどれですか。

ディスカッション 0

正解:C

正解の根拠

SageMaker AI の k-NN は埋め込みベクトルなど数値特徴に対する分類・回帰・最近傍検索に対応し、predictor_type や距離指標 (L2 / コサイン) を選べます。記事埋め込みからの近傍検索ユースケースに直接適合します。

項目k-NNLinear Learner
距離ベース検索得意非対象
非線形決定境界柔軟線形のみ
埋め込み入力そのまま利用線形結合のみ

不正解の理由

  • A: BlazingText の再学習だけでは検索基盤にならず、距離ベース推論の枠組みは別途必要です。
  • B: Linear Learner は線形決定境界で、近傍検索ではなく分類タスク用に設計されています。
  • D: RCF は異常検知用で、類似記事検索や多クラス分類の目的とは整合しません。

参考:SageMaker k-NN