MLS-C01#4(data-engineering)

MLS-C01#4(data-engineering)

ある研究機関は CSV 形式で蓄積した数 TB のセンサーログを Athena で頻繁に分析したいが、クエリコストとスキャン量を削減する必要があります。データは時系列で日次に追加されます。最も効果的な対策はどれでしょうか。

ディスカッション 0

正解:A

正解の根拠

Athena は列指向の Parquet/ORC を読む際に必要列のみをスキャンし、述語プッシュダウンとパーティション枝刈りでスキャン量を大幅に削減します。日付パーティションを設けることで、特定期間のクエリは該当パーティションのみを読みます。

形式圧縮率列スキャン
CSV+gzip不可
Parquet
ORC

不正解の理由

  • B: gzip CSV は行指向のままのためスキャン量を削減できず、コスト効果が限定的になります。
  • C: workgroup の分割は可視化に有効ですが、スキャン量自体は削減できないので逆効果です。
  • D: RDS 経由は Federated Query 起動コストが増え、本来の S3 直読より割高になりがちです。

参考:Athena 列指向ストレージ


コメント

コメント

コメントする

目次