【MLS-C01】WEB問題集:モデリング編

WEB問題集

MLS-C01#1(modeling)

ある通販企業は購買履歴 200 万件を用いて再購入確率を予測する二値分類モデルを SageMaker AI で構築します。説明変数は 60 列の数値・カテゴリ混在で、欠損値や外れ値もある程度含まれます。学習速度と精度の両立を重視しつつ、ハイパーパラメータの調整余地が大きい組み込みアルゴリズムを選定したいと考えています。最も適切な選択肢はどれですか。

A. SageMaker AI Random Cut Forest を異常スコア計算に用い、スコア値を 0〜1 に正規化したうえで再購入確率と解釈します。
B. SageMaker AI Linear Learner を回帰モードで学習させ、推論結果をしきい値で 2 値化して再購入の有無を判定するパイプラインを組み、判定閾値はビジネス要件に合わせて随時調整します。
C. SageMaker AI k-means を k=2 で実行し、得られたクラスタ番号を再購入クラスのラベルとみなして本番推論に転用します。
D. SageMaker AI XGBoost を objective=binary:logistic で利用し、max_depth や eta を調整して再購入確率を予測します。

正解と解説ディスカッション 0

正解：D

正解の根拠

XGBoost は欠損値・外れ値にロバストで、表形式データの二値分類で広く第一選択となります。objective=binary:logistic で確率出力が得られ、max_depth や eta など調整余地が大きい点も要件に合致します。

アルゴリズム	主な用途	本問適合
XGBoost	表形式の分類/回帰	適合
Linear Learner	線形分類/回帰	非線形に弱い
k-means	教師なしクラスタリング	分類目的に不適
RCF	異常検知	確率出力ではない

不正解の理由

A: RCF は異常スコアを返す異常検知用で、再購入確率の予測には設計が不適切です。
B: 回帰モードでの二値化は Linear Learner の binary_classifier 用途を外しており非効率です。
C: k-means は教師なしで、購入有無のラベルを学習に活かせず精度が安定しません。

参考：SageMaker XGBoost

MLS-C01#2(modeling)

あるオンライン書店が利用者と書籍の購入ログを基にレコメンドモデルを SageMaker AI で構築します。ユーザー ID と書籍 ID は数百万規模で疎な行列を形成し、明示的な評価値はなく購入有無のみが分かります。協調フィルタリングに近い形で潜在因子を学習する組み込みアルゴリズムを採用したいと考えています。最も適切な選択肢はどれですか。

A. Linear Learner を二値分類モードで使用し、ユーザー ID と書籍 ID をワンホット化したうえで線形重みを学習させ、推論時はユーザーごとに全書籍に対するスコアを再計算する形で推薦リストを生成します。
B. Factorization Machines を predictor_type=binary_classifier で利用し潜在因子を学習します。
C. Random Cut Forest を異常検知として利用し、購入されにくいペアを異常スコアとして算出することで疑似的な推薦に転用します。
D. k-NN をユークリッド距離で適用し、ユーザーごとに最近傍の書籍ベクトルを返却するシンプルなアプローチを構築します。

正解と解説ディスカッション 0

正解：B

正解の根拠

Factorization Machines は高次元かつ疎な特徴量に強く、ユーザー × アイテムのワンホット表現から潜在因子を学習する協調フィルタリング向けアルゴリズムです。predictor_type=binary_classifier で購入有無のような二値ターゲットを扱えます。

アルゴリズム	疎行列対応	潜在因子
Factorization Machines	強い	あり
Linear Learner	可だが交互作用なし	なし
RCF	異常検知	なし
k-NN	距離計算が高コスト	なし

不正解の理由

A: Linear Learner は ID 同士の交互作用を学習できず、疎行列のレコメンドには不向きです。
C: RCF は異常検知用で、ユーザーとアイテム間の嗜好を表現できず推薦の代用になりません。
D: k-NN は数百万 ID 規模では距離計算コストが膨大で、実用的ではありません。

参考：SageMaker Factorization Machines

MLS-C01#3(modeling)

ある電力会社は数千台のセンサーから 5 分間隔で計測される時系列を用いて、向こう 24 時間の需要を地域別に予測するモデルを構築したいと考えています。地域ごとに季節性や祝日効果が異なり、関連する複数系列をまとめて学習させたいです。SageMaker AI で最も適した選択肢はどれですか。

A. DeepAR を採用し context_length と prediction_length を設定します。
B. Linear Learner を時系列の差分系列に対して回帰として適用し、各地域ごとに別モデルとしてバッチ学習を回します。
C. k-means で需要パターンをクラスタリングしクラスタ平均を将来時刻の予測値として代用するアプローチを採用します。
D. BlazingText を時系列のトークン化済み表現に対して訓練し、得られた埋め込みから将来需要を回帰で算出します。

正解と解説ディスカッション 0

正解：A

正解の根拠

DeepAR は複数の関連時系列を同時に学習する RNN ベースの予測モデルで、地域ごとの季節性や祝日特徴 (cat 特徴量、dynamic_feat) を活用できます。context_length は履歴の参照長、prediction_length は予測区間で、需要の周期に合わせて調整します。

項目	DeepAR	Linear Learner
多系列共有学習	可能	困難
季節性	RNN で表現	明示的特徴必要
確率予測	分位点出力	点推定

不正解の理由

B: Linear Learner は系列間の共有構造や非線形な季節性を表現できず、精度が頭打ちになりがちです。
C: k-means は教師なしクラスタリングで、将来の数値予測そのものを目的としていません。
D: BlazingText は単語埋め込み・テキスト分類用で、数値時系列の予測には設計が異なります。

参考：SageMaker DeepAR

MLS-C01#4(modeling)

あるクレジット会社は決済トランザクションを 1 秒あたり数千件処理しており、不正の疑いがある取引をリアルタイムに検出したいと考えています。ラベル付きの不正データはごく一部しかなく、大部分は正常取引です。教師なしで異常スコアを返す SageMaker AI 組み込みアルゴリズムとして最も適切なのはどれですか。

A. k-means を高次元特徴で学習しクラスタ中心からの距離を異常スコアとして利用するアプローチを採用します。
B. XGBoost をクラス重み付きで学習させ、少数派の不正クラスに対する recall を重視するモデルを構築します。
C. Random Cut Forest を num_trees と num_samples_per_tree を調整して適用します。
D. Factorization Machines を二値分類モードで利用し、ユーザー特徴量と商品特徴量の交互作用を学習させて不正判定を行います。

正解と解説ディスカッション 0

正解：C

正解の根拠

Random Cut Forest (RCF) は教師なし異常検知の組み込みアルゴリズムで、各データ点に異常スコアを返します。num_trees でアンサンブルの安定性、num_samples_per_tree で各木が見るサブサンプルの多様性を制御します。

観点	RCF	k-means
異常スコア	標準出力	距離を間接利用
クラスタ前提	不要	必要
高次元耐性	強い	次元の呪いに弱い

不正解の理由

A: k-means は球状クラスタを仮定し、複雑な不正パターンの異常検知には適合度が低くなりがちです。
B: XGBoost は教師ありで、十分なラベル不正データが揃わない条件では精度が確保しにくいです。
D: Factorization Machines は推薦や疎な分類向けで、教師なし異常検知の用途とは合致しません。

参考：SageMaker Random Cut Forest

MLS-C01#5(modeling)

ある研究機関は数百万件のニュース記事から類似記事を高速に検索したいと考えています。各記事を 100 次元の埋め込みベクトルに変換した後、組み込みアルゴリズムで距離ベースの分類・最近傍検索を行いたいです。SageMaker AI 組み込みアルゴリズムとして最も適切な選択肢はどれですか。

A. BlazingText を Word2Vec モードで再学習させ、追加で得たベクトルから手作りの最近傍検索ロジックを構築します。
B. Linear Learner を softmax 多クラス分類で適用し、記事ベクトルを直接入力して類似カテゴリを推定する設計とします。
C. k-NN を predictor_type=classifier で訓練し距離指標にコサインを設定します。
D. Random Cut Forest を異常検知として適用し、距離が遠いものを類似性が低いものとみなす近似探索を実装します。

正解と解説ディスカッション 0

正解：C

正解の根拠

SageMaker AI の k-NN は埋め込みベクトルなど数値特徴に対する分類・回帰・最近傍検索に対応し、predictor_type や距離指標 (L2 / コサイン) を選べます。記事埋め込みからの近傍検索ユースケースに直接適合します。

項目	k-NN	Linear Learner
距離ベース検索	得意	非対象
非線形決定境界	柔軟	線形のみ
埋め込み入力	そのまま利用	線形結合のみ

不正解の理由

A: BlazingText の再学習だけでは検索基盤にならず、距離ベース推論の枠組みは別途必要です。
B: Linear Learner は線形決定境界で、近傍検索ではなく分類タスク用に設計されています。
D: RCF は異常検知用で、類似記事検索や多クラス分類の目的とは整合しません。

参考：SageMaker k-NN