MENU

会員登録（無料）

MLS-C01#4(data-engineering)

この問題のディスカッション

MLS-C01#4(data-engineering)

ある研究機関は CSV 形式で蓄積した数 TB のセンサーログを Athena で頻繁に分析したいが、クエリコストとスキャン量を削減する必要があります。データは時系列で日次に追加されます。最も効果的な対策はどれでしょうか。

A. AWS Glue ジョブで Parquet 形式に変換し、日付パーティションで S3 に書き戻します。
B. CSV のまま gzip 圧縮し、S3 Intelligent-Tiering に移行してストレージコストを削減します。
C. Athena workgroup を分けてクエリごとの課金タグを付与し、月次レポートで可視化します。
D. Amazon RDS for PostgreSQL に CSV をロードし、Athena Federated Query から参照させます。

正解と解説ディスカッション 0

正解：A

正解の根拠

Athena は列指向の Parquet/ORC を読む際に必要列のみをスキャンし、述語プッシュダウンとパーティション枝刈りでスキャン量を大幅に削減します。日付パーティションを設けることで、特定期間のクエリは該当パーティションのみを読みます。

形式	圧縮率	列スキャン
CSV+gzip	中	不可
Parquet	高	可
ORC	高	可

不正解の理由

B: gzip CSV は行指向のままのためスキャン量を削減できず、コスト効果が限定的になります。
C: workgroup の分割は可視化に有効ですが、スキャン量自体は削減できないので逆効果です。
D: RDS 経由は Federated Query 起動コストが増え、本来の S3 直読より割高になりがちです。

参考：Athena 列指向ストレージ

コメント

コメント

コメントするコメントをキャンセル