PDE#1(storing)

PDE#1(storing)

ある小売企業は POS から 1 日あたり 80 億行のトランザクションを BigQuery に取り込み、分析チームは常に過去 90 日のデータを店舗 ID と商品カテゴリで絞り込むレポートを作成します。テーブルサイズは 50 TB を超え、スキャンコストが課題となっています。コストとパフォーマンスを両立する最適な物理設計はどれですか?

ディスカッション 0

正解:A

正解の根拠

BigQuery では時系列フィルタが頻出する場合に取引日のパーティション分割が有効で、パーティションプルーニングによりスキャン量を 90 日分に限定できます。さらに店舗 ID と商品カテゴリでクラスタリングすると、ブロック単位でデータが並び替えられ追加の絞り込みが効率化されます。両者の併用はコストと性能のバランスが最良となります。

サービス比較

項目正解 (パーティション+クラスタ)不正解 (クラスタのみ)
スキャン削減パーティション単位で除外可能常に全パーティションを評価
運用自動メンテナンスクラスタ再構成負荷あり

不正解の理由

  • B: 店舗 ID は高カーディナリティでパーティションキーに不適、上限 4000 に抵触するリスクがあります
  • C: BigQuery は単一カラムによる時間/整数パーティションのみ対応で複合不可です
  • D: クラスタ単独では古い 90 日以前のデータもスキャン対象となりコスト削減効果が限定的です

参考:BigQuery clustered tables


コメント

コメント

コメントする

目次