Question#16(SAP-C02)

Question#16(SAP-C02)

ある会社は複数の AWS アカウントにワークロードをデプロイしています。各アカウントには VPC があり、VPC フローログをテキストログ形式で中央の Amazon S3 バケットに配信しています。各ログファイルは gzip で圧縮されています。ログは無期限に保持する必要があります。

セキュリティエンジニアは、必要に応じて Amazon Athena を使って VPC フローログをクエリし分析していますが、取り込み量の増加に伴いクエリ性能が低下しています。ソリューションアーキテクトは、ログ分析の性能を改善し、同時に ストレージ使用量も削減する必要があります。 最も大きな性能改善が見込める解はどれですか?

正解:C

Athena のクエリ性能は「スキャン(読み取り)データ量」に強く依存します。既存のテキスト(スペース区切り)+ gzip

  • 列志向でないため不要列も読み込む
  • gzip はスプリット不可で並列性が上がりにくい という構造上の制約があり、データ量が増えるほど遅くなります。
Parquet(列指向・圧縮・統計メタデータ)にすると、
  • 列単位の読み取り(必要列だけ)
  • Predicate Pushdown統計によるスキップ
  • 高圧縮(Snappy 等)とエンコーディングサイズ縮小 が効き、スキャン量を桁違いに削減できます。さらに 時間単位のパーティションを切れば、クエリの期間指定でパーティションプルーニングが働き、対象ファイル数を最小化できます。結果として最も大きな性能改善保管コスト削減を同時に満たします。VPC フローログは S3 配信時に Parquet と Hive 互換パーティション(年/月/日/時 等)を指定可能です。

コメント

コメント

コメントする

目次