PDE#1(maintaining)
ある製造業の分析基盤では、Dataflow ストリーミング パイプラインが IoT センサーからのイベントを BigQuery に書き込んでいます。SRE チームは、ウォーターマークの遅延が 5 分を超えた場合に即座にオンコール担当者へ通知し、ダッシュボードで過去 30 日のシステム状態を可視化したいと考えています。運用負荷を最小限に抑えつつ要件を満たす最適な構成はどれですか?
正解:D
正解の根拠
Cloud Monitoring は Dataflow の system_lag や data_watermark_age など主要メトリクスを自動収集します。アラート ポリシーを定義することで、しきい値超過時に PagerDuty などのオンコール ツールへ通知でき、組み込みダッシュボードで履歴も確認できます。コードを書かずに SLO 監視を実現できる点が運用負荷の最小化につながります。
サービス比較
| 項目 | Cloud Monitoring アラート | カスタム発行+関数 |
|---|---|---|
| 実装工数 | UI/IaC 設定のみ | 関数開発と保守 |
| メトリクス取得 | 自動収集 | 明示的発行が必要 |
| ダッシュボード | 組み込み | 別途構築 |
不正解の理由
- A: 独自実装が増え、関数障害時に検知漏れが発生する可能性があり保守負荷が上がります
- C: ログの grep はリアルタイム性が低く、構造化メトリクスより信頼性に欠けます
- B: BigQuery クエリ実行コストとレイテンシが発生し監視用途には不向きです

コメント