WEB問題集
ある通販企業は購買履歴 200 万件を用いて再購入確率を予測する二値分類モデルを SageMaker AI で構築します。説明変数は 60 列の数値・カテゴリ混在で、欠損値や外れ値もある程度含まれます。学習速度と精度の両立を重視しつつ、ハイパーパラメータの調整余地が大きい組み込みアルゴリズムを選定したいと考えています。最も適切な選択肢はどれですか。
正解:D
正解の根拠
XGBoost は欠損値・外れ値にロバストで、表形式データの二値分類で広く第一選択となります。objective=binary:logistic で確率出力が得られ、max_depth や eta など調整余地が大きい点も要件に合致します。
| アルゴリズム | 主な用途 | 本問適合 |
|---|---|---|
| XGBoost | 表形式の分類/回帰 | 適合 |
| Linear Learner | 線形分類/回帰 | 非線形に弱い |
| k-means | 教師なしクラスタリング | 分類目的に不適 |
| RCF | 異常検知 | 確率出力ではない |
不正解の理由
- A: RCF は異常スコアを返す異常検知用で、再購入確率の予測には設計が不適切です。
- B: 回帰モードでの二値化は Linear Learner の binary_classifier 用途を外しており非効率です。
- C: k-means は教師なしで、購入有無のラベルを学習に活かせず精度が安定しません。
あるオンライン書店が利用者と書籍の購入ログを基にレコメンドモデルを SageMaker AI で構築します。ユーザー ID と書籍 ID は数百万規模で疎な行列を形成し、明示的な評価値はなく購入有無のみが分かります。協調フィルタリングに近い形で潜在因子を学習する組み込みアルゴリズムを採用したいと考えています。最も適切な選択肢はどれですか。
正解:B
正解の根拠
Factorization Machines は高次元かつ疎な特徴量に強く、ユーザー × アイテムのワンホット表現から潜在因子を学習する協調フィルタリング向けアルゴリズムです。predictor_type=binary_classifier で購入有無のような二値ターゲットを扱えます。
| アルゴリズム | 疎行列対応 | 潜在因子 |
|---|---|---|
| Factorization Machines | 強い | あり |
| Linear Learner | 可だが交互作用なし | なし |
| RCF | 異常検知 | なし |
| k-NN | 距離計算が高コスト | なし |
不正解の理由
- A: Linear Learner は ID 同士の交互作用を学習できず、疎行列のレコメンドには不向きです。
- C: RCF は異常検知用で、ユーザーとアイテム間の嗜好を表現できず推薦の代用になりません。
- D: k-NN は数百万 ID 規模では距離計算コストが膨大で、実用的ではありません。
ある電力会社は数千台のセンサーから 5 分間隔で計測される時系列を用いて、向こう 24 時間の需要を地域別に予測するモデルを構築したいと考えています。地域ごとに季節性や祝日効果が異なり、関連する複数系列をまとめて学習させたいです。SageMaker AI で最も適した選択肢はどれですか。
正解:A
正解の根拠
DeepAR は複数の関連時系列を同時に学習する RNN ベースの予測モデルで、地域ごとの季節性や祝日特徴 (cat 特徴量、dynamic_feat) を活用できます。context_length は履歴の参照長、prediction_length は予測区間で、需要の周期に合わせて調整します。
| 項目 | DeepAR | Linear Learner |
|---|---|---|
| 多系列共有学習 | 可能 | 困難 |
| 季節性 | RNN で表現 | 明示的特徴必要 |
| 確率予測 | 分位点出力 | 点推定 |
不正解の理由
- B: Linear Learner は系列間の共有構造や非線形な季節性を表現できず、精度が頭打ちになりがちです。
- C: k-means は教師なしクラスタリングで、将来の数値予測そのものを目的としていません。
- D: BlazingText は単語埋め込み・テキスト分類用で、数値時系列の予測には設計が異なります。
あるクレジット会社は決済トランザクションを 1 秒あたり数千件処理しており、不正の疑いがある取引をリアルタイムに検出したいと考えています。ラベル付きの不正データはごく一部しかなく、大部分は正常取引です。教師なしで異常スコアを返す SageMaker AI 組み込みアルゴリズムとして最も適切なのはどれですか。
正解:C
正解の根拠
Random Cut Forest (RCF) は教師なし異常検知の組み込みアルゴリズムで、各データ点に異常スコアを返します。num_trees でアンサンブルの安定性、num_samples_per_tree で各木が見るサブサンプルの多様性を制御します。
| 観点 | RCF | k-means |
|---|---|---|
| 異常スコア | 標準出力 | 距離を間接利用 |
| クラスタ前提 | 不要 | 必要 |
| 高次元耐性 | 強い | 次元の呪いに弱い |
不正解の理由
- A: k-means は球状クラスタを仮定し、複雑な不正パターンの異常検知には適合度が低くなりがちです。
- B: XGBoost は教師ありで、十分なラベル不正データが揃わない条件では精度が確保しにくいです。
- D: Factorization Machines は推薦や疎な分類向けで、教師なし異常検知の用途とは合致しません。
ある研究機関は数百万件のニュース記事から類似記事を高速に検索したいと考えています。各記事を 100 次元の埋め込みベクトルに変換した後、組み込みアルゴリズムで距離ベースの分類・最近傍検索を行いたいです。SageMaker AI 組み込みアルゴリズムとして最も適切な選択肢はどれですか。
正解:C
正解の根拠
SageMaker AI の k-NN は埋め込みベクトルなど数値特徴に対する分類・回帰・最近傍検索に対応し、predictor_type や距離指標 (L2 / コサイン) を選べます。記事埋め込みからの近傍検索ユースケースに直接適合します。
| 項目 | k-NN | Linear Learner |
|---|---|---|
| 距離ベース検索 | 得意 | 非対象 |
| 非線形決定境界 | 柔軟 | 線形のみ |
| 埋め込み入力 | そのまま利用 | 線形結合のみ |
不正解の理由
- A: BlazingText の再学習だけでは検索基盤にならず、距離ベース推論の枠組みは別途必要です。
- B: Linear Learner は線形決定境界で、近傍検索ではなく分類タスク用に設計されています。
- D: RCF は異常検知用で、類似記事検索や多クラス分類の目的とは整合しません。
