MLS-C01#2(ml-operations)
ある保険会社は、巨大な PDF ドキュメントを夜間バッチで分類するモデルを Amazon SageMaker で提供する必要があります。1 件あたりの推論時間は数十秒に達し、結果は 1 時間以内に取得できれば十分です。既存の同期エンドポイントは長時間処理でタイムアウトが頻発しています。最も適切な提供方式はどれですか。
正解:B
正解の根拠
Asynchronous Inference は最大 1 時間の推論実行と最大 1GB のペイロードに対応し、入力を S3 パスで受け取って非同期にキューイングします。長時間の推論や大きなドキュメントを扱う夜間バッチ処理に最適で、ゼロスケールも可能でコスト効率が高い構成です。
| エンドポイント種別 | 最大処理時間 | ペイロード上限 | 用途 |
|---|---|---|---|
| Real-time | 60 秒 | 6MB | 低遅延同期 |
| Asynchronous | 1 時間 | 1GB | 長時間/大容量 |
| Serverless | 60 秒 | 4MB | 断続的トラフィック |
| Batch Transform | 制限なし | 大容量 | オフラインバッチ |
不正解の理由
- A: Serverless Inference のタイムアウトは 60 秒で、数十秒級の長時間推論には適しません
- C: SageMaker 同期推論自体に 60 秒上限があり、ALB 設定では回避できません
- D: エッジ展開はデバイス側処理が前提で、夜間バッチのクラウド集約用途に過剰です

コメント