PDE#4(storing)

PDE#4(storing)

ある気象解析企業は、20 年分の気象観測データ (300 TB の Parquet) を Cloud Storage に保管しています。データサイエンスチームは BigQuery でこのデータを直接分析し、Spark ジョブからもアクセスしたい一方、ガバナンスのため行・列レベルのアクセス制御を BigQuery と同等に適用したい要件があります。最適な実装はどれですか？

A. Cloud Storage のデータを BigQuery に全件ロードしてからクエリし、Spark からはコピーを参照する
B. BigLake テーブルとして GCS の Parquet を登録し IAM とポリシータグで統制
C. BigQuery 外部テーブルとして登録し、列レベルセキュリティを設定して Spark からも同テーブルを参照する
D. Dataproc Metastore に登録し、Spark から Hive 形式で参照する構成にして BigQuery でもクエリする

正解と解説ディスカッション 0

正解：B

正解の根拠

BigLake テーブルは Cloud Storage 上のオープンフォーマット (Parquet/ORC/Avro) を BigQuery と Spark の双方から統一的に参照可能とし、行レベルセキュリティや列レベルセキュリティ、Data Catalog のポリシータグを適用できます。アクセス委任モデルにより、エンドユーザに直接 Cloud Storage 権限を付与せずに済み、ガバナンスを強化できます。

サービス比較

項目	正解 (BigLake)	不正解 (外部テーブル)
行レベル制御	対応	非対応
Spark 連携	BigLake Connector	直接参照不可

不正解の理由

A: 300 TB の重複保管はコスト過大で、Spark からの直接参照要件も満たせない設計となります
C: 旧来の外部テーブルは行レベル制御や Spark 委任アクセスを欠き、ガバナンス要件を満たしません
D: Dataproc Metastore は BigQuery からの統一アクセスや列レベル制御を提供できない構成です

参考：BigLake overview

正解の根拠

サービス比較

不正解の理由

コメント

コメント

コメントするコメントをキャンセル

正解の根拠

サービス比較

不正解の理由

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル