【MLS-C01】WEB問題集:ML実装と運用編

WEB問題集

MLS-C01#1(ml-operations)

あるオンライン小売企業は、商品レコメンドモデルを Amazon SageMaker のリアルタイムエンドポイントで提供しています。トラフィックは平日昼間にピークを迎え、深夜には大きく落ち込みます。MLエンジニアはコストを抑えながら遅延要件を維持したいと考えています。最も適切なオートスケーリング設定はどれですか。

ディスカッション 0

正解:A

正解の根拠

SageMaker のリアルタイムエンドポイントには Application Auto Scaling 経由でターゲット追跡ポリシーを適用できます。推奨される指標は SageMakerVariantInvocationsPerInstance で、1 インスタンスあたりの推論呼び出し回数を一定に保つよう自動調整されるため、トラフィック変動への追従性とコスト効率を両立できます。

方式追従性コスト効率運用負荷
ターゲット追跡(Invocations)高い高い低い
ステップスケーリング(CPU)中程度中程度中程度
スケジュール固定低い低い高い
固定プロビジョニング不要非常に低い低い

不正解の理由

  • B: CPU は推論負荷を必ずしも反映せず、SageMaker では Invocations ベースが推奨されます
  • C: 突発的なトラフィック変動に追従できず、過剰または不足が発生しやすくなります
  • D: 深夜帯も最大台数で稼働し、コストが大幅に増加するため最適ではありません

参考:Automatically scale Amazon SageMaker models

MLS-C01#2(ml-operations)

ある保険会社は、巨大な PDF ドキュメントを夜間バッチで分類するモデルを Amazon SageMaker で提供する必要があります。1 件あたりの推論時間は数十秒に達し、結果は 1 時間以内に取得できれば十分です。既存の同期エンドポイントは長時間処理でタイムアウトが頻発しています。最も適切な提供方式はどれですか。

ディスカッション 0

正解:B

正解の根拠

Asynchronous Inference は最大 1 時間の推論実行と最大 1GB のペイロードに対応し、入力を S3 パスで受け取って非同期にキューイングします。長時間の推論や大きなドキュメントを扱う夜間バッチ処理に最適で、ゼロスケールも可能でコスト効率が高い構成です。

エンドポイント種別最大処理時間ペイロード上限用途
Real-time60 秒6MB低遅延同期
Asynchronous1 時間1GB長時間/大容量
Serverless60 秒4MB断続的トラフィック
Batch Transform制限なし大容量オフラインバッチ

不正解の理由

  • A: Serverless Inference のタイムアウトは 60 秒で、数十秒級の長時間推論には適しません
  • C: SageMaker 同期推論自体に 60 秒上限があり、ALB 設定では回避できません
  • D: エッジ展開はデバイス側処理が前提で、夜間バッチのクラウド集約用途に過剰です

参考:Asynchronous inference

MLS-C01#3(ml-operations)

あるメディア企業は、新バージョンのレコメンドモデルを本番に投入する前に、実際の本番リクエストで品質を比較したいと考えています。ユーザーへの応答品質には影響を与えず、現行モデルの応答を返したまま新モデルの推論結果も並行して計測したいです。最適な機能はどれですか。

ディスカッション 0

正解:C

正解の根拠

SageMaker Shadow Tests (シャドーバリアント) は、本番トラフィックを複製して新モデルへ並行送信し、応答自体はユーザーに返さず計測のみ行う機能です。実トラフィック特性での性能評価が可能で、ユーザー体験を損なうことなく品質比較ができます。

方式ユーザー影響実トラフィック主用途
Shadow テストなしはい事前性能比較
カナリアありはい段階リリース
過去ログ再生なしいいえオフライン検証
マルチモデルありはい多数モデル提供

不正解の理由

  • A: 5% のユーザーには新モデルの応答が返るため、応答品質に影響が出る可能性があります
  • B: 過去ログ再生では実時間トラフィックの分布や負荷特性を再現しきれません
  • D: マルチモデルエンドポイントは多数モデルを効率提供する仕組みで、A/B 比較用途ではありません

参考:Shadow tests

MLS-C01#4(ml-operations)

ある SaaS 企業は、テナントごとに学習させた数千個の小型モデルをホストする必要があります。各テナントのトラフィックは散発的で、エンドポイントを 1 つずつ立てるとコストが膨れ上がります。最もコスト効率の高い提供方式はどれですか。

ディスカッション 0

正解:D

正解の根拠

SageMaker Multi-Model Endpoint (MME) は、共通の推論コンテナ上に多数のモデルをホストし、リクエスト時に必要なモデルを S3 から動的にロード/アンロードします。散発的トラフィックと大量モデルを 1 つのエンドポイントに集約でき、リソース利用率を最大化してコストを劇的に削減できます。

方式モデル数コスト適性
Multi-Model Endpoint数千非常に低い同フレームワーク多数
Multi-Container最大 15異種フレームワーク
個別エンドポイント数十まで高い独立 SLA
Serverless 多数限定的低頻度独立

不正解の理由

  • A: 数千個の Serverless エンドポイントは管理上限と運用コストの両面で現実的ではありません
  • B: テナント数のインスタンスを並べる方式はリソース利用率が低く高コストになります
  • C: テナント独立に学習されたモデルを単純結合すると精度劣化やリーク問題が生じます

参考:Multi-model endpoints

MLS-C01#5(ml-operations)

あるフィンテック企業は、月初のみアクセスが集中するクレジットスコアリングモデルを Amazon SageMaker で提供しています。それ以外の期間はリクエストがほぼゼロですが、月初に瞬時に応答する必要があります。最適なエンドポイント構成はどれですか。

ディスカッション 0

正解:B

正解の根拠

Serverless Inference はトラフィックが無いときはゼロスケールしてコストを発生させず、必要な時だけ起動します。Provisioned Concurrency を設定すると指定数のワーカーが事前ウォームアップされ、コールドスタート遅延を排除して即応性を確保できます。月初のみ集中する負荷パターンに最適です。

構成アイドルコスト応答性運用負荷
Serverless + PC低い高い低い
常時稼働非常に高い高い低い
Batch Transform低い低い (即応不可)低い
独自 EC2低い中程度非常に高い

不正解の理由

  • A: 常時 4 台稼働は無トラフィック期間にも高額な料金が継続して発生します
  • C: Batch Transform は同期応答ができず、リアルタイムスコアリングには不適です
  • D: 独自 EC2 構築は SageMaker のマネージドメリットを失い運用負荷が上がります

参考:Serverless Inference