Question#16(SAP-C02)

ある会社は複数の AWS アカウントにワークロードをデプロイしています。各アカウントには VPC があり、VPC フローログをテキストログ形式で中央の Amazon S3 バケットに配信しています。各ログファイルは gzip で圧縮されています。ログは無期限に保持する必要があります。

セキュリティエンジニアは、必要に応じて Amazon Athena を使って VPC フローログをクエリし分析していますが、取り込み量の増加に伴いクエリ性能が低下しています。ソリューションアーキテクトは、ログ分析の性能を改善し、同時に ストレージ使用量も削減する必要があります。 最も大きな性能改善が見込める解はどれですか？

A. AWS Lambda 関数を作成して gzip を伸長し、bzip2 に再圧縮する。S3 バケットの s3:ObjectCreated:Put イベントで関数を起動する。
B. S3 バケットで S3 Transfer Acceleration を有効化する。S3 ライフサイクル設定で、アップロード直後に S3 Intelligent-Tiering へ移行する。
C. VPC フローログの設定を更新し、Apache Parquet 形式で出力するようにする。ログファイルは時間単位（hourly）でパーティションを切る。
D. データ使用量制限のない新しい Athena ワークグループを作成し、Athena エンジン Version 2 を使用する。

正解と解説ディスカッション 0

正解：C

Athena のクエリ性能は「スキャン（読み取り）データ量」に強く依存します。既存のテキスト（スペース区切り）＋ gzipは

列志向でないため不要列も読み込む
gzip はスプリット不可で並列性が上がりにくいという構造上の制約があり、データ量が増えるほど遅くなります。

Parquet（列指向・圧縮・統計メタデータ）にすると、

列単位の読み取り（必要列だけ）
Predicate Pushdown と 統計によるスキップ
高圧縮（Snappy 等）とエンコーディングでサイズ縮小 が効き、スキャン量を桁違いに削減できます。さらに 時間単位のパーティションを切れば、クエリの期間指定でパーティションプルーニングが働き、対象ファイル数を最小化できます。結果として最も大きな性能改善と保管コスト削減を同時に満たします。VPC フローログは S3 配信時に Parquet と Hive 互換パーティション（年/月/日/時等）を指定可能です。

Question#16(SAP-C02)

コメント

コメント

コメントするコメントをキャンセル

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル