PDE#1(maintaining)

ある製造業の分析基盤では、Dataflow ストリーミングパイプラインが IoT センサーからのイベントを BigQuery に書き込んでいます。SRE チームは、ウォーターマークの遅延が 5 分を超えた場合に即座にオンコール担当者へ通知し、ダッシュボードで過去 30 日のシステム状態を可視化したいと考えています。運用負荷を最小限に抑えつつ要件を満たす最適な構成はどれですか？

A. Dataflow ジョブから Pub/Sub にカスタムメトリクスを発行し、Cloud Functions で集計し Slack に通知する
B. BigQuery のスケジュールドクエリで、ウォーターマークテーブルを 1 分ごとに確認する運用
C. Cloud Logging で Dataflow ワーカーログを定期的に grep する Cloud Scheduler ジョブ構築
D. Cloud Monitoring の Dataflow メトリクスでアラート発報し通知チャネル連携

正解と解説ディスカッション 0

正解：D

正解の根拠

Cloud Monitoring は Dataflow の system_lag や data_watermark_age など主要メトリクスを自動収集します。アラートポリシーを定義することで、しきい値超過時に PagerDuty などのオンコールツールへ通知でき、組み込みダッシュボードで履歴も確認できます。コードを書かずに SLO 監視を実現できる点が運用負荷の最小化につながります。

サービス比較

項目	Cloud Monitoring アラート	カスタム発行+関数
実装工数	UI/IaC 設定のみ	関数開発と保守
メトリクス取得	自動収集	明示的発行が必要
ダッシュボード	組み込み	別途構築

不正解の理由

A: 独自実装が増え、関数障害時に検知漏れが発生する可能性があり保守負荷が上がります
C: ログの grep はリアルタイム性が低く、構造化メトリクスより信頼性に欠けます
B: BigQuery クエリ実行コストとレイテンシが発生し監視用途には不向きです

参考：Dataflow モニタリングインターフェース

PDE#1(maintaining)

正解の根拠

サービス比較

不正解の理由

コメント

コメント

コメントするコメントをキャンセル

正解の根拠

サービス比較

不正解の理由

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル