MLS-C01#1(data-engineering)
あるメディア企業はクリックストリームログを毎秒約 5 万件発生させており、SageMaker でリアルタイム推論を行うパーソナライズモデルへ低レイテンシで連携したいと考えています。生データは S3 にも保管し、後続の特徴量再生成で利用します。最も運用負荷を抑えつつ要件を満たす構成はどれでしょうか。
正解:D
正解の根拠
Kinesis Data Streams は秒単位でのスケーラブルな取り込みが可能で、Lambda コンシューマーから SageMaker エンドポイントを呼び出せばストリーム上で推論を完結させられます。同じストリームを Firehose で購読すれば、コードを書かずに S3 へ生データを並行配信でき、特徴量の再生成にも利用できます。
| サービス | 役割 | 特性 |
|---|---|---|
| Kinesis Data Streams | 取り込み | ミリ秒レイテンシ |
| Lambda | 推論呼び出し | サーバーレス |
| Kinesis Firehose | S3 永続化 | 自動配信 |
不正解の理由
- A: SQS は順序保証が標準では弱く、夜間バッチではリアルタイム要件を満たせません。
- B: MSK と Spark の自前運用は管理コストが高く、運用負荷を最小化できません。
- C: DMS は DB 変更データ用途で、クリックストリーム取り込みには適合しません。

コメント