【ADP】WEB問題集:データガバナンス編

WEB問題集

ADP#1(data-governance)

小売企業がGoogle Cloud上で多種多様なデータを管理しており、データの発見、分類、品質管理、ガバナンスを統合的に行いたいと考えています。BigQuery、Cloud Storage、Pub/Subなどに分散したデータ資産を論理的にグループ化し、ゾーン単位で管理する仕組みを必要としています。最適なサービスはどれですか。

ディスカッション 0

正解:A

正解の根拠

Dataplexは分散したデータ資産をLake、Zone、Assetという階層で論理的に整理し、検出、分類、品質管理、ガバナンスを統合的に提供するインテリジェントデータファブリックです。

階層役割
Lakeデータドメイン全体を表す最上位のグループ
ZoneRaw、Curatedなどデータの状態でサブグループ化
AssetBigQueryデータセットやCloud Storageバケットを参照

不正解の理由

  • Cloud Loggingはログ集約サービスでありデータ資産の論理管理は行いません
  • Cloud Monitoringはメトリクスとアラートの監視サービスです
  • Cloud IAPはアプリケーションへのアクセス制御サービスです

参考:Dataplex の概要

ADP#2(data-governance)

データレイク内のデータを生データと加工済みデータで分けて管理したいと考えています。Dataplexで生データを格納するゾーンと、品質保証されたデータを格納するゾーンを作成する場合、それぞれどのZoneタイプを選択しますか。

ディスカッション 0

正解:D

正解の根拠

DataplexのZoneにはRaw zoneとCurated zoneの2種類があり、データのライフサイクル段階に応じて使い分けます。

Zoneタイプ用途データ形式
Raw zone取り込んだままの生データ任意の形式
Curated zoneクレンジング済み構造化データParquet、Avro、ORC、BigQuery

不正解の理由

  • RawとCuratedの役割が逆になっています
  • 同一Zoneでアセットだけで区別すると品質要件が混在します
  • タグだけでの区別はZoneのスキーマ強制機能を活用できません

参考:Dataplex ゾーンの追加

ADP#3(data-governance)

Data Catalogでデータ資産にビジネス情報を付与し、検索やガバナンスに活用したいと考えています。複数のテーブルに対して一貫した属性セット(オーナー、機密レベル、業務領域)を付与する仕組みとして、最適なものはどれですか。

ディスカッション 0

正解:D

正解の根拠

Data Catalogのタグ テンプレートは事前にフィールド定義(型、必須属性)を持つ再利用可能な雛形であり、複数資産に一貫した構造化メタデータを付与できます。

機能役割
タグ テンプレート属性スキーマ定義(再利用可能)
タグテンプレートに基づく実データ
ポリシータグ列レベルACL用の階層分類

不正解の理由

  • 自由形式ラベルはスキーマ強制ができず一貫性が崩れます
  • テーブル説明欄は構造化検索やガバナンスに不向きです
  • Cloud Storageのメタデータ機能ではBigQueryテーブルに付与できません

参考:Data Catalog タグとテンプレート

ADP#4(data-governance)

BigQueryテーブル内の特定の列(顧客のメールアドレス、電話番号)について、特定のロールを持つユーザーのみが閲覧できるようにアクセス制御をかけたいと考えています。最も適切な仕組みはどれですか。

ディスカッション 0

正解:C

正解の根拠

BigQueryの列レベルアクセス制御はData Catalogのポリシータグを列に付与し、Data Catalog Fine-Grained Readerロールで制御する仕組みです。これにより同一テーブル内でも列ごとにアクセス制御できます。

要素役割
分類(Taxonomy)ポリシータグの階層を定義
ポリシータグ列に付与する分類ラベル
Fine-Grained Reader当該タグ列の閲覧権限

不正解の理由

  • テーブル全体のdataViewerでは列単位の制御ができません
  • KMSでの暗号化はクエリ可能な列マスキングを提供しません
  • テーブル分割は運用コストが高くJOINが必要になります

参考:BigQuery 列レベルセキュリティ

ADP#5(data-governance)

BigQueryのテーブルで、ユーザーごとに閲覧できる行を制限したいと考えています。例えばリージョンマネージャーは自分の担当地域の行のみ参照できるようにする要件があります。適切な機能はどれですか。

ディスカッション 0

正解:C

正解の根拠

BigQueryの行アクセスポリシー(Row Access Policy)はSQLのフィルタ式とユーザー/グループを紐付け、クエリ時に自動的に該当行のみを返す機能です。テーブルを分割せずに行レベル制御が可能です。

機能制御単位
行アクセスポリシー行(フィルタ条件)
列レベルセキュリティ列(ポリシータグ)
IAMテーブル/データセット

不正解の理由

  • 列レベルセキュリティは列の表示制御で行制御はできません
  • テーブル分割は運用負荷が高く同一スキーマでの分析が複雑化します
  • UDFはアクセス制御機構ではなく権限分離を提供しません

参考:BigQuery 行レベルセキュリティ