WEB問題集
あるオンライン小売企業は、商品レコメンドモデルを Amazon SageMaker のリアルタイムエンドポイントで提供しています。トラフィックは平日昼間にピークを迎え、深夜には大きく落ち込みます。MLエンジニアはコストを抑えながら遅延要件を維持したいと考えています。最も適切なオートスケーリング設定はどれですか。
正解:A
正解の根拠
SageMaker のリアルタイムエンドポイントには Application Auto Scaling 経由でターゲット追跡ポリシーを適用できます。推奨される指標は SageMakerVariantInvocationsPerInstance で、1 インスタンスあたりの推論呼び出し回数を一定に保つよう自動調整されるため、トラフィック変動への追従性とコスト効率を両立できます。
| 方式 | 追従性 | コスト効率 | 運用負荷 |
|---|---|---|---|
| ターゲット追跡(Invocations) | 高い | 高い | 低い |
| ステップスケーリング(CPU) | 中程度 | 中程度 | 中程度 |
| スケジュール固定 | 低い | 低い | 高い |
| 固定プロビジョニング | 不要 | 非常に低い | 低い |
不正解の理由
- B: CPU は推論負荷を必ずしも反映せず、SageMaker では Invocations ベースが推奨されます
- C: 突発的なトラフィック変動に追従できず、過剰または不足が発生しやすくなります
- D: 深夜帯も最大台数で稼働し、コストが大幅に増加するため最適ではありません
ある保険会社は、巨大な PDF ドキュメントを夜間バッチで分類するモデルを Amazon SageMaker で提供する必要があります。1 件あたりの推論時間は数十秒に達し、結果は 1 時間以内に取得できれば十分です。既存の同期エンドポイントは長時間処理でタイムアウトが頻発しています。最も適切な提供方式はどれですか。
正解:B
正解の根拠
Asynchronous Inference は最大 1 時間の推論実行と最大 1GB のペイロードに対応し、入力を S3 パスで受け取って非同期にキューイングします。長時間の推論や大きなドキュメントを扱う夜間バッチ処理に最適で、ゼロスケールも可能でコスト効率が高い構成です。
| エンドポイント種別 | 最大処理時間 | ペイロード上限 | 用途 |
|---|---|---|---|
| Real-time | 60 秒 | 6MB | 低遅延同期 |
| Asynchronous | 1 時間 | 1GB | 長時間/大容量 |
| Serverless | 60 秒 | 4MB | 断続的トラフィック |
| Batch Transform | 制限なし | 大容量 | オフラインバッチ |
不正解の理由
- A: Serverless Inference のタイムアウトは 60 秒で、数十秒級の長時間推論には適しません
- C: SageMaker 同期推論自体に 60 秒上限があり、ALB 設定では回避できません
- D: エッジ展開はデバイス側処理が前提で、夜間バッチのクラウド集約用途に過剰です
あるメディア企業は、新バージョンのレコメンドモデルを本番に投入する前に、実際の本番リクエストで品質を比較したいと考えています。ユーザーへの応答品質には影響を与えず、現行モデルの応答を返したまま新モデルの推論結果も並行して計測したいです。最適な機能はどれですか。
正解:C
正解の根拠
SageMaker Shadow Tests (シャドーバリアント) は、本番トラフィックを複製して新モデルへ並行送信し、応答自体はユーザーに返さず計測のみ行う機能です。実トラフィック特性での性能評価が可能で、ユーザー体験を損なうことなく品質比較ができます。
| 方式 | ユーザー影響 | 実トラフィック | 主用途 |
|---|---|---|---|
| Shadow テスト | なし | はい | 事前性能比較 |
| カナリア | あり | はい | 段階リリース |
| 過去ログ再生 | なし | いいえ | オフライン検証 |
| マルチモデル | あり | はい | 多数モデル提供 |
不正解の理由
- A: 5% のユーザーには新モデルの応答が返るため、応答品質に影響が出る可能性があります
- B: 過去ログ再生では実時間トラフィックの分布や負荷特性を再現しきれません
- D: マルチモデルエンドポイントは多数モデルを効率提供する仕組みで、A/B 比較用途ではありません
参考:Shadow tests
ある SaaS 企業は、テナントごとに学習させた数千個の小型モデルをホストする必要があります。各テナントのトラフィックは散発的で、エンドポイントを 1 つずつ立てるとコストが膨れ上がります。最もコスト効率の高い提供方式はどれですか。
正解:D
正解の根拠
SageMaker Multi-Model Endpoint (MME) は、共通の推論コンテナ上に多数のモデルをホストし、リクエスト時に必要なモデルを S3 から動的にロード/アンロードします。散発的トラフィックと大量モデルを 1 つのエンドポイントに集約でき、リソース利用率を最大化してコストを劇的に削減できます。
| 方式 | モデル数 | コスト | 適性 |
|---|---|---|---|
| Multi-Model Endpoint | 数千 | 非常に低い | 同フレームワーク多数 |
| Multi-Container | 最大 15 | 中 | 異種フレームワーク |
| 個別エンドポイント | 数十まで | 高い | 独立 SLA |
| Serverless 多数 | 限定的 | 中 | 低頻度独立 |
不正解の理由
- A: 数千個の Serverless エンドポイントは管理上限と運用コストの両面で現実的ではありません
- B: テナント数のインスタンスを並べる方式はリソース利用率が低く高コストになります
- C: テナント独立に学習されたモデルを単純結合すると精度劣化やリーク問題が生じます
あるフィンテック企業は、月初のみアクセスが集中するクレジットスコアリングモデルを Amazon SageMaker で提供しています。それ以外の期間はリクエストがほぼゼロですが、月初に瞬時に応答する必要があります。最適なエンドポイント構成はどれですか。
正解:B
正解の根拠
Serverless Inference はトラフィックが無いときはゼロスケールしてコストを発生させず、必要な時だけ起動します。Provisioned Concurrency を設定すると指定数のワーカーが事前ウォームアップされ、コールドスタート遅延を排除して即応性を確保できます。月初のみ集中する負荷パターンに最適です。
| 構成 | アイドルコスト | 応答性 | 運用負荷 |
|---|---|---|---|
| Serverless + PC | 低い | 高い | 低い |
| 常時稼働 | 非常に高い | 高い | 低い |
| Batch Transform | 低い | 低い (即応不可) | 低い |
| 独自 EC2 | 低い | 中程度 | 非常に高い |
不正解の理由
- A: 常時 4 台稼働は無トラフィック期間にも高額な料金が継続して発生します
- C: Batch Transform は同期応答ができず、リアルタイムスコアリングには不適です
- D: 独自 EC2 構築は SageMaker のマネージドメリットを失い運用負荷が上がります
