MLS-C01#1(data-engineering)

MLS-C01#1(data-engineering)

あるメディア企業はクリックストリームログを毎秒約 5 万件発生させており、SageMaker でリアルタイム推論を行うパーソナライズモデルへ低レイテンシで連携したいと考えています。生データは S3 にも保管し、後続の特徴量再生成で利用します。最も運用負荷を抑えつつ要件を満たす構成はどれでしょうか。

ディスカッション 0

正解:D

正解の根拠

Kinesis Data Streams は秒単位でのスケーラブルな取り込みが可能で、Lambda コンシューマーから SageMaker エンドポイントを呼び出せばストリーム上で推論を完結させられます。同じストリームを Firehose で購読すれば、コードを書かずに S3 へ生データを並行配信でき、特徴量の再生成にも利用できます。

サービス役割特性
Kinesis Data Streams取り込みミリ秒レイテンシ
Lambda推論呼び出しサーバーレス
Kinesis FirehoseS3 永続化自動配信

不正解の理由

  • A: SQS は順序保証が標準では弱く、夜間バッチではリアルタイム要件を満たせません。
  • B: MSK と Spark の自前運用は管理コストが高く、運用負荷を最小化できません。
  • C: DMS は DB 変更データ用途で、クリックストリーム取り込みには適合しません。

参考:Amazon Kinesis Data Streams


コメント

コメント

コメントする

目次