【MLS-C01】WEB問題集:ML実装と運用編

WEB問題集

MLS-C01#1(ml-operations)

あるオンライン小売企業は、商品レコメンドモデルを Amazon SageMaker のリアルタイムエンドポイントで提供しています。トラフィックは平日昼間にピークを迎え、深夜には大きく落ち込みます。MLエンジニアはコストを抑えながら遅延要件を維持したいと考えています。最も適切なオートスケーリング設定はどれですか。

A.
SageMakerVariantInvocationsPerInstance のターゲット追跡で動的に台数を調整します
B.
CPUUtilization のステップスケーリングポリシーを構成し、80% を超えた時点で 1 インスタンスずつ追加して、トラフィック減少時には反対に縮小します
C.
毎日 9 時にインスタンス 10 台に固定し、22 時に 2 台に戻すスケジュール式スケーリングを CloudWatch Events で設定し、休祝日は別ルールにします
D.
Application Auto Scaling は使わず、最大ピーク台数で常時稼働させて遅延の安定性を最優先で確保し、深夜帯もインスタンス数は変更しません

正解と解説ディスカッション 0

正解：A

正解の根拠

SageMaker のリアルタイムエンドポイントには Application Auto Scaling 経由でターゲット追跡ポリシーを適用できます。推奨される指標は SageMakerVariantInvocationsPerInstance で、1 インスタンスあたりの推論呼び出し回数を一定に保つよう自動調整されるため、トラフィック変動への追従性とコスト効率を両立できます。

方式	追従性	コスト効率	運用負荷
ターゲット追跡(Invocations)	高い	高い	低い
ステップスケーリング(CPU)	中程度	中程度	中程度
スケジュール固定	低い	低い	高い
固定プロビジョニング	不要	非常に低い	低い

不正解の理由

B: CPU は推論負荷を必ずしも反映せず、SageMaker では Invocations ベースが推奨されます
C: 突発的なトラフィック変動に追従できず、過剰または不足が発生しやすくなります
D: 深夜帯も最大台数で稼働し、コストが大幅に増加するため最適ではありません

参考：Automatically scale Amazon SageMaker models

MLS-C01#2(ml-operations)

ある保険会社は、巨大な PDF ドキュメントを夜間バッチで分類するモデルを Amazon SageMaker で提供する必要があります。1 件あたりの推論時間は数十秒に達し、結果は 1 時間以内に取得できれば十分です。既存の同期エンドポイントは長時間処理でタイムアウトが頻発しています。最も適切な提供方式はどれですか。

A.
SageMaker Serverless Inference を選択し、最大同時実行数を 200 に引き上げてタイムアウトを回避し、コールドスタート対策に Provisioned Concurrency を併用します
B.
SageMaker Asynchronous Inference を採用し、入力 S3 パスを与えて結果を S3 で受領します
C.
同期エンドポイントを継続使用し、Application Load Balancer のアイドルタイムアウトを 4000 秒へ延長して、リトライ回数も増やすことで安定化を図ります
D.
SageMaker Edge Manager にデプロイし、各拠点のエッジデバイスで PDF を処理して結果を本社のデータレイクに集約する構成に変更します

正解と解説ディスカッション 0

正解：B

正解の根拠

Asynchronous Inference は最大 1 時間の推論実行と最大 1GB のペイロードに対応し、入力を S3 パスで受け取って非同期にキューイングします。長時間の推論や大きなドキュメントを扱う夜間バッチ処理に最適で、ゼロスケールも可能でコスト効率が高い構成です。

エンドポイント種別	最大処理時間	ペイロード上限	用途
Real-time	60 秒	6MB	低遅延同期
Asynchronous	1 時間	1GB	長時間/大容量
Serverless	60 秒	4MB	断続的トラフィック
Batch Transform	制限なし	大容量	オフラインバッチ

不正解の理由

A: Serverless Inference のタイムアウトは 60 秒で、数十秒級の長時間推論には適しません
C: SageMaker 同期推論自体に 60 秒上限があり、ALB 設定では回避できません
D: エッジ展開はデバイス側処理が前提で、夜間バッチのクラウド集約用途に過剰です

参考：Asynchronous inference

MLS-C01#3(ml-operations)

あるメディア企業は、新バージョンのレコメンドモデルを本番に投入する前に、実際の本番リクエストで品質を比較したいと考えています。ユーザーへの応答品質には影響を与えず、現行モデルの応答を返したまま新モデルの推論結果も並行して計測したいです。最適な機能はどれですか。

A.
カナリアデプロイメントを設定し、新モデルへ 5% のトラフィックを徐々にルーティングし、CloudWatch アラームで異常を検知して切り戻します
B.
本番エンドポイントを停止し、ステージング環境で過去ログを再生してテストし、品質指標を Athena で集計してダッシュボード表示します
C.
SageMaker のシャドーバリアントを有効化し、本番トラフィックを並行送信します
D.
マルチモデルエンドポイントを構築し、リクエストごとに動的にモデルを切り替えて応答品質を比較し、Lambda で結果を集計します

正解と解説ディスカッション 0

正解：C

正解の根拠

SageMaker Shadow Tests (シャドーバリアント) は、本番トラフィックを複製して新モデルへ並行送信し、応答自体はユーザーに返さず計測のみ行う機能です。実トラフィック特性での性能評価が可能で、ユーザー体験を損なうことなく品質比較ができます。

方式	ユーザー影響	実トラフィック	主用途
Shadow テスト	なし	はい	事前性能比較
カナリア	あり	はい	段階リリース
過去ログ再生	なし	いいえ	オフライン検証
マルチモデル	あり	はい	多数モデル提供

不正解の理由

A: 5% のユーザーには新モデルの応答が返るため、応答品質に影響が出る可能性があります
B: 過去ログ再生では実時間トラフィックの分布や負荷特性を再現しきれません
D: マルチモデルエンドポイントは多数モデルを効率提供する仕組みで、A/B 比較用途ではありません

参考：Shadow tests

MLS-C01#4(ml-operations)

ある SaaS 企業は、テナントごとに学習させた数千個の小型モデルをホストする必要があります。各テナントのトラフィックは散発的で、エンドポイントを 1 つずつ立てるとコストが膨れ上がります。最もコスト効率の高い提供方式はどれですか。

A.
テナント数分の Serverless Inference エンドポイントを作成し、リクエストごとに対応エンドポイントを呼び出して、Lambda 経由でルーティングします
B.
各テナントのモデルを個別の m5.large インスタンス上にデプロイし、Spot インスタンスで運用してコストを抑え、Auto Scaling で台数を制御します
C.
すべてのモデルを 1 つの巨大モデルにマージし、テナント ID を入力特徴量として推論し、ABテスト機能で動作確認します
D.
Multi-Model Endpoint で動的ロード/アンロードして提供します

正解と解説ディスカッション 0

正解：D

正解の根拠

SageMaker Multi-Model Endpoint (MME) は、共通の推論コンテナ上に多数のモデルをホストし、リクエスト時に必要なモデルを S3 から動的にロード/アンロードします。散発的トラフィックと大量モデルを 1 つのエンドポイントに集約でき、リソース利用率を最大化してコストを劇的に削減できます。

方式	モデル数	コスト	適性
Multi-Model Endpoint	数千	非常に低い	同フレームワーク多数
Multi-Container	最大 15	中	異種フレームワーク
個別エンドポイント	数十まで	高い	独立 SLA
Serverless 多数	限定的	中	低頻度独立

不正解の理由

A: 数千個の Serverless エンドポイントは管理上限と運用コストの両面で現実的ではありません
B: テナント数のインスタンスを並べる方式はリソース利用率が低く高コストになります
C: テナント独立に学習されたモデルを単純結合すると精度劣化やリーク問題が生じます

参考：Multi-model endpoints

MLS-C01#5(ml-operations)

あるフィンテック企業は、月初のみアクセスが集中するクレジットスコアリングモデルを Amazon SageMaker で提供しています。それ以外の期間はリクエストがほぼゼロですが、月初に瞬時に応答する必要があります。最適なエンドポイント構成はどれですか。

A.
常時 ml.m5.xlarge を 4 台稼働させ、月初にトラフィックを処理してスロー応答を防ぎ、Auto Scaling は無効化して動作を安定化させます
B.
Serverless Inference に Provisioned Concurrency を月初のみ設定します
C.
Batch Transform で毎月初日に一括処理し、結果を DynamoDB へ書き込み、API Gateway 経由でクライアントへ返却する構成にします
D.
EC2 上に独自推論サーバを構築し、Auto Scaling Group で 0 台まで縮退させ、月初は前日に手動で台数を増やしておく運用にします

正解と解説ディスカッション 0

正解：B

正解の根拠

Serverless Inference はトラフィックが無いときはゼロスケールしてコストを発生させず、必要な時だけ起動します。Provisioned Concurrency を設定すると指定数のワーカーが事前ウォームアップされ、コールドスタート遅延を排除して即応性を確保できます。月初のみ集中する負荷パターンに最適です。

構成	アイドルコスト	応答性	運用負荷
Serverless + PC	低い	高い	低い
常時稼働	非常に高い	高い	低い
Batch Transform	低い	低い (即応不可)	低い
独自 EC2	低い	中程度	非常に高い

不正解の理由

A: 常時 4 台稼働は無トラフィック期間にも高額な料金が継続して発生します
C: Batch Transform は同期応答ができず、リアルタイムスコアリングには不適です
D: 独自 EC2 構築は SageMaker のマネージドメリットを失い運用負荷が上がります

参考：Serverless Inference