PDE#4(storing)
ある気象解析企業は、20 年分の気象観測データ (300 TB の Parquet) を Cloud Storage に保管しています。データサイエンスチームは BigQuery でこのデータを直接分析し、Spark ジョブからもアクセスしたい一方、ガバナンスのため行・列レベルのアクセス制御を BigQuery と同等に適用したい要件があります。最適な実装はどれですか?
正解:B
正解の根拠
BigLake テーブルは Cloud Storage 上のオープンフォーマット (Parquet/ORC/Avro) を BigQuery と Spark の双方から統一的に参照可能とし、行レベルセキュリティや列レベルセキュリティ、Data Catalog のポリシータグを適用できます。アクセス委任モデルにより、エンドユーザに直接 Cloud Storage 権限を付与せずに済み、ガバナンスを強化できます。
サービス比較
| 項目 | 正解 (BigLake) | 不正解 (外部テーブル) |
|---|---|---|
| 行レベル制御 | 対応 | 非対応 |
| Spark 連携 | BigLake Connector | 直接参照不可 |
不正解の理由
- A: 300 TB の重複保管はコスト過大で、Spark からの直接参照要件も満たせない設計となります
- C: 旧来の外部テーブルは行レベル制御や Spark 委任アクセスを欠き、ガバナンス要件を満たしません
- D: Dataproc Metastore は BigQuery からの統一アクセスや列レベル制御を提供できない構成です

コメント