PDE#1(storing)
ある小売企業は POS から 1 日あたり 80 億行のトランザクションを BigQuery に取り込み、分析チームは常に過去 90 日のデータを店舗 ID と商品カテゴリで絞り込むレポートを作成します。テーブルサイズは 50 TB を超え、スキャンコストが課題となっています。コストとパフォーマンスを両立する最適な物理設計はどれですか?
正解:A
正解の根拠
BigQuery では時系列フィルタが頻出する場合に取引日のパーティション分割が有効で、パーティションプルーニングによりスキャン量を 90 日分に限定できます。さらに店舗 ID と商品カテゴリでクラスタリングすると、ブロック単位でデータが並び替えられ追加の絞り込みが効率化されます。両者の併用はコストと性能のバランスが最良となります。
サービス比較
| 項目 | 正解 (パーティション+クラスタ) | 不正解 (クラスタのみ) |
|---|---|---|
| スキャン削減 | パーティション単位で除外可能 | 常に全パーティションを評価 |
| 運用 | 自動メンテナンス | クラスタ再構成負荷あり |
不正解の理由
- B: 店舗 ID は高カーディナリティでパーティションキーに不適、上限 4000 に抵触するリスクがあります
- C: BigQuery は単一カラムによる時間/整数パーティションのみ対応で複合不可です
- D: クラスタ単独では古い 90 日以前のデータもスキャン対象となりコスト削減効果が限定的です

コメント