Question#1(Professional Data Engineer)

あなたの会社のデータプラットフォームは、アップストリームソースから予約データとユーザープロファイルデータの CSV ファイルダンプを Cloud Storage に取り込んでいます。データアナリストチームは、分析を実行するために、両方のデータセットにあるメールフィールドでこれらのデータセットを結合したいと考えています。ただし、個人を特定できる情報（PII）はアナリストがアクセスできないようにする必要があります。あなたは、アナリストのために BigQuery にロードする前に、両方のデータセットのメールフィールドを非識別化する必要があります。あなたは何をすべきですか？

A. 1. マスキングを非識別化変換タイプとして使用し、Cloud Data Loss Prevention (Cloud DLP) の recordTransformations を使用して、メールフィールドを非識別化するパイプラインを作成します。
2. 予約データとユーザープロファイルデータを BigQuery テーブルにロードします。
B. 1. FFX を使用した形式保持暗号化を非識別化変換タイプとして使用し、Cloud DLP の recordTransformations を使用して、メールフィールドを非識別化するパイプラインを作成します。
2. 予約データとユーザープロファイルデータを BigQuery テーブルにロードします。
C. 1. Cloud Storage から CSV ファイルを BigQuery テーブルにロードし、動的データマスキングを有効にします。
2. データマスキングルールとしてメールマスクを含むポリシータグを作成します。
3. 両方のテーブルのメールフィールドにポリシーを割り当てます。
4. アナリストに BigQuery テーブルの Identity and Access Management (IAM) ロール bigquerydatapolicy.maskedReader を割り当てます。
D. 1. Cloud Storage から CSV ファイルを BigQuery テーブルにロードし、動的データマスキングを有効にします。
2. データマスキングルールとしてデフォルトマスキング値を含むポリシータグを作成します。
3. 両方のテーブルのメールフィールドにポリシーを割り当てます。
4. アナリストに BigQuery テーブルの Identity and Access Management (IAM) ロール bigquerydatapolicy.maskedReader を割り当てます。

正解と解説ディスカッション 0

正解：B

この問題の鍵は、以下の2つの要件を同時に満たすことです。

非識別化（De-identify）： メールフィールドを個人を特定できない形に変換すること。
結合可能性（Joinability）： 非識別化された後のメールフィールド（トークン）を使用して、予約データとユーザープロファイルデータという異なるデータセットを結合できること。

🔑 選択肢の評価

A. Cloud DLP + マスキング:
- マスキングは、データを「X」などの定数やランダムな値に置き換える非識別化手法です。
- 欠点： データが非識別化されますが、元のメールアドレスが異なっていても同じマスク値になってしまうため、異なるデータセット間で結合することが不可能になります。
B. Cloud DLP + FFX 形式保持暗号化 (FPE):
- FFX は、形式保持暗号化の一種です。これは、元の値（メールアドレス）を、元の形式（メールアドレスの形式や文字数）を保持したまま、一意で一貫性のあるトークンに変換します。
- 利点：
  1. 非識別化： トークンは元の PII に戻すことが難しいため、PII が保護されます。
  2. 結合可能性： **同じ元のメールアドレスは、常に同じ一意のトークンに変換されます。**これにより、予約テーブルのトークン化されたメールと、ユーザープロファイルテーブルのトークン化されたメールを、元の情報（メールアドレス）を公開せずに結合することが可能になります。
- これが要件を完全に満たす最良のソリューションです。
C & D. BigQuery 動的データマスキング:
- 動的データマスキングは、データ自体を物理的に変更するのではなく、クエリ実行時にユーザーの権限に基づいてデータにマスクをかける手法です。元の PII データは BigQuery テーブルにそのまま残っています。
- 欠点：
  1. 物理的な非識別化ではない： この要件は BigQuery にロードする前に非識別化することを求めているため、データマスキングはデータを取り込む際の解決策としては不適切です。
  2. 結合への影響： マスキングされたデータ（例：xxxxx@xxxx.com）は、結合には使用できますが、アナリストがテーブルを結合できるのは、同じユーザーが同じマスキングルールを持っている場合のみであり、マスキングされた値自体は結合キーとして使用するには不確かです。また、問題の核心は「PII をアクセス不可にすること」であり、動的マスキングは元のデータが残るため、厳格なセキュリティ要件に適合しない可能性があります。また、特に「マスクされたメールアドレス」が結合キーとして機能する保証はありません（例: マスキングの種類によっては異なる値になってしまう）。FFX-FPEの方が、恒久的なトークンを生成するため、結合キーとして適しています。

FFX 形式保持暗号化は、データが永続的に非識別化され、かつ結合可能であるという、すべての要件を満たすため、正解は B となります。

Question#1(Professional Data Engineer)

🔑 選択肢の評価

コメント

コメント

コメントするコメントをキャンセル

🔑 選択肢の評価

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル