PDE#1(designing)

PDE#1(designing)

ある製造業の企業が、世界 12 拠点の工場から 1 秒あたり合計 80 万件の IoT センサーイベントを集約し、5 秒以内の異常検知ダッシュボードと、長期保管した生データに対する月次の機械学習バッチ学習の両方を実現したいと考えています。運用チームの人員が限られており、クラスタの容量計画やスケーリングに時間を割けません。Google Cloud で最適なアーキテクチャはどれですか。

ディスカッション 0

正解:C

正解の根拠

Pub/Sub はグローバルにスケールするフルマネージドのメッセージングで、毎秒数十万件のイベント取り込みに対応します。Dataflow のストリーミングジョブは Autoscaling により運用負荷を最小化しつつ低レイテンシで異常検知できます。BigQuery にはホットデータを書き込み 5 秒以内の集計を提供し、Cloud Storage に同時シンクすることで月次バッチ ML 学習用の長期データレイクも構築できます。

サービス比較

項目正解 (Pub/Sub + Dataflow)不正解 (Dataproc 永続)
運用サーバーレス・自動スケールクラスタ管理が必要
低レイテンシ秒オーダー調整次第
ML 用長期保管Cloud Storage 連携HDFS は永続性に課題

不正解の理由

  • A: Kafka と Spark を自前運用するため、容量計画やスケールの運用負荷が前提と矛盾します。
  • B: Cloud SQL は秒間 80 万件のイベント書き込みに耐えるトランザクション DB ではなく、分析にも不向きです。
  • D: 永続 Dataproc クラスタは運用負荷が高く、サーバーレスの要件に合致しません。

参考:データウェアハウスのリファレンスアーキテクチャ


コメント

コメント

コメントする

目次