PDE#4(maintaining)

PDE#4(maintaining)

あるメディア企業は、複数のチームが BigQuery、Dataflow、Cloud Storage を組み合わせて 100 を超えるパイプラインを運用しています。データソースから最終ダッシュボードまでの依存関係を可視化し、列レベルの変更影響を分析できる仕組みを構築したいです。最適なサービスはどれですか?

ディスカッション 0

正解:D

正解の根拠

Data Catalog Lineage(Dataplex の機能)は、BigQuery や Dataflow、Cloud Composer など対応サービスから系統情報を自動収集し、テーブルレベルおよびカラムレベルの依存関係をグラフで可視化します。変更影響分析や規制対応に有用で、API 経由でカスタム連携も可能です。手動メンテナンスを削減できる点が大規模運用での利点です。

サービス比較

項目Data Catalog LineageComposer DAG
収集範囲横断的サービスDAG 内部のみ
カラム単位対応非対応
自動化マネージド定義依存

不正解の理由

  • A: DAG ビューはタスク依存表示でデータ系統やカラム単位の追跡には不十分です
  • C: 手動図面はパイプライン変更に追随できず、信頼性が低下します
  • B: INFORMATION_SCHEMA からの抽出は SQL 内に限定され網羅性に欠けます

参考:Data Catalog データ系統について


コメント

コメント

コメントする

目次