PDE#1(maintaining)

PDE#1(maintaining)

ある製造業の分析基盤では、Dataflow ストリーミング パイプラインが IoT センサーからのイベントを BigQuery に書き込んでいます。SRE チームは、ウォーターマークの遅延が 5 分を超えた場合に即座にオンコール担当者へ通知し、ダッシュボードで過去 30 日のシステム状態を可視化したいと考えています。運用負荷を最小限に抑えつつ要件を満たす最適な構成はどれですか?

ディスカッション 0

正解:D

正解の根拠

Cloud Monitoring は Dataflow の system_lag や data_watermark_age など主要メトリクスを自動収集します。アラート ポリシーを定義することで、しきい値超過時に PagerDuty などのオンコール ツールへ通知でき、組み込みダッシュボードで履歴も確認できます。コードを書かずに SLO 監視を実現できる点が運用負荷の最小化につながります。

サービス比較

項目Cloud Monitoring アラートカスタム発行+関数
実装工数UI/IaC 設定のみ関数開発と保守
メトリクス取得自動収集明示的発行が必要
ダッシュボード組み込み別途構築

不正解の理由

  • A: 独自実装が増え、関数障害時に検知漏れが発生する可能性があり保守負荷が上がります
  • C: ログの grep はリアルタイム性が低く、構造化メトリクスより信頼性に欠けます
  • B: BigQuery クエリ実行コストとレイテンシが発生し監視用途には不向きです

参考:Dataflow モニタリング インターフェース


コメント

コメント

コメントする

目次