MLS-C01#1(ml-operations)
あるオンライン小売企業は、商品レコメンドモデルを Amazon SageMaker のリアルタイムエンドポイントで提供しています。トラフィックは平日昼間にピークを迎え、深夜には大きく落ち込みます。MLエンジニアはコストを抑えながら遅延要件を維持したいと考えています。最も適切なオートスケーリング設定はどれですか。
正解:A
正解の根拠
SageMaker のリアルタイムエンドポイントには Application Auto Scaling 経由でターゲット追跡ポリシーを適用できます。推奨される指標は SageMakerVariantInvocationsPerInstance で、1 インスタンスあたりの推論呼び出し回数を一定に保つよう自動調整されるため、トラフィック変動への追従性とコスト効率を両立できます。
| 方式 | 追従性 | コスト効率 | 運用負荷 |
|---|---|---|---|
| ターゲット追跡(Invocations) | 高い | 高い | 低い |
| ステップスケーリング(CPU) | 中程度 | 中程度 | 中程度 |
| スケジュール固定 | 低い | 低い | 高い |
| 固定プロビジョニング | 不要 | 非常に低い | 低い |
不正解の理由
- B: CPU は推論負荷を必ずしも反映せず、SageMaker では Invocations ベースが推奨されます
- C: 突発的なトラフィック変動に追従できず、過剰または不足が発生しやすくなります
- D: 深夜帯も最大台数で稼働し、コストが大幅に増加するため最適ではありません

コメント