PDE#4(maintaining)
あるメディア企業は、複数のチームが BigQuery、Dataflow、Cloud Storage を組み合わせて 100 を超えるパイプラインを運用しています。データソースから最終ダッシュボードまでの依存関係を可視化し、列レベルの変更影響を分析できる仕組みを構築したいです。最適なサービスはどれですか?
正解:D
正解の根拠
Data Catalog Lineage(Dataplex の機能)は、BigQuery や Dataflow、Cloud Composer など対応サービスから系統情報を自動収集し、テーブルレベルおよびカラムレベルの依存関係をグラフで可視化します。変更影響分析や規制対応に有用で、API 経由でカスタム連携も可能です。手動メンテナンスを削減できる点が大規模運用での利点です。
サービス比較
| 項目 | Data Catalog Lineage | Composer DAG |
|---|---|---|
| 収集範囲 | 横断的サービス | DAG 内部のみ |
| カラム単位 | 対応 | 非対応 |
| 自動化 | マネージド | 定義依存 |
不正解の理由
- A: DAG ビューはタスク依存表示でデータ系統やカラム単位の追跡には不十分です
- C: 手動図面はパイプライン変更に追随できず、信頼性が低下します
- B: INFORMATION_SCHEMA からの抽出は SQL 内に限定され網羅性に欠けます

コメント