MLS-C01#4(data-engineering)
ある研究機関は CSV 形式で蓄積した数 TB のセンサーログを Athena で頻繁に分析したいが、クエリコストとスキャン量を削減する必要があります。データは時系列で日次に追加されます。最も効果的な対策はどれでしょうか。
正解:A
正解の根拠
Athena は列指向の Parquet/ORC を読む際に必要列のみをスキャンし、述語プッシュダウンとパーティション枝刈りでスキャン量を大幅に削減します。日付パーティションを設けることで、特定期間のクエリは該当パーティションのみを読みます。
| 形式 | 圧縮率 | 列スキャン |
|---|---|---|
| CSV+gzip | 中 | 不可 |
| Parquet | 高 | 可 |
| ORC | 高 | 可 |
不正解の理由
- B: gzip CSV は行指向のままのためスキャン量を削減できず、コスト効果が限定的になります。
- C: workgroup の分割は可視化に有効ですが、スキャン量自体は削減できないので逆効果です。
- D: RDS 経由は Federated Query 起動コストが増え、本来の S3 直読より割高になりがちです。

コメント