PDE#4(storing)

PDE#4(storing)

ある気象解析企業は、20 年分の気象観測データ (300 TB の Parquet) を Cloud Storage に保管しています。データサイエンスチームは BigQuery でこのデータを直接分析し、Spark ジョブからもアクセスしたい一方、ガバナンスのため行・列レベルのアクセス制御を BigQuery と同等に適用したい要件があります。最適な実装はどれですか?

ディスカッション 0

正解:B

正解の根拠

BigLake テーブルは Cloud Storage 上のオープンフォーマット (Parquet/ORC/Avro) を BigQuery と Spark の双方から統一的に参照可能とし、行レベルセキュリティや列レベルセキュリティ、Data Catalog のポリシータグを適用できます。アクセス委任モデルにより、エンドユーザに直接 Cloud Storage 権限を付与せずに済み、ガバナンスを強化できます。

サービス比較

項目正解 (BigLake)不正解 (外部テーブル)
行レベル制御対応非対応
Spark 連携BigLake Connector直接参照不可

不正解の理由

  • A: 300 TB の重複保管はコスト過大で、Spark からの直接参照要件も満たせない設計となります
  • C: 旧来の外部テーブルは行レベル制御や Spark 委任アクセスを欠き、ガバナンス要件を満たしません
  • D: Dataproc Metastore は BigQuery からの統一アクセスや列レベル制御を提供できない構成です

参考:BigLake overview


コメント

コメント

コメントする

目次