Question#9(SAP-C02)

ある会社は、機械学習トレーニングアルゴリズム用のトレーニングドキュメントを取得するために、対象 URL のリストに対してウェブクロール処理を実行しています。Amazon EC2 t2.micro インスタンスのフリートが、Amazon Simple Queue Service（Amazon SQS）キューから対象 URL を取得します。インスタンスはクロール処理の結果を .csv ファイルとして Amazon Elastic File System（Amazon EFS）ボリュームに書き込みます。EFS ボリュームはフリートのすべてのインスタンスにマウントされています。

別のシステムが SQS キューに URL を不定期に追加します。インスタンスは各 URL を 10 秒以内でクロールします。メトリクスによると、SQS キューに URL がないときに一部のインスタンスがアイドル状態になっています。ソリューションアーキテクトは、コストを最適化するようにアーキテクチャを再設計する必要があります。この要件を最もコスト効率よく満たす手順の組み合わせはどれですか？（2つ選択してください）

（2つ選択）

A. ウェブクロール処理用に t2.micro インスタンスの代わりに m5.8xlarge インスタンスを使用する。フリート内のインスタンス数を 50% に削減する。
B. ウェブクロール処理を AWS Lambda 関数に変換する。Lambda 関数を設定して SQS キューから URL を取得する。
C. ウェブクロール処理を変更して、結果を Amazon Neptune に保存する。
D. ウェブクロール処理を変更して、結果を Amazon Aurora Serverless MySQL インスタンスに保存する。
E. ウェブクロール処理を変更して、結果を Amazon S3 に保存する。

正解と解説ディスカッション 0

正解：B, E

イベント駆動・短時間処理：URL の追加は「まれ」で、各クロールは 10 秒以内。常時起動の EC2 フリートはアイドル時間が多く 非効率。SQS をトリガーに AWS Lambda を起動すれば、キュー到着時だけ実行され、アイドルコストをゼロにできます（同時実行はイベントソースマッピングで自動スケール）。
ストレージのサーバーレス化とコスト最適化：結果を共有ボリューム（EFS）に .csv で書く必要はありません。Amazon S3 は耐久性・コストに優れ、バッチ生成の CSV 置き場に最適。将来の分析（Athena/Glue/EMR など）とも親和性が高いです。EFS は常時マウントの維持費が発生しやすく、本件では S3 の方が最も安価。

Question#9(SAP-C02)

コメント

コメント

コメントするコメントをキャンセル

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル