Question#12(MLS-C01)

データエンジニアは、ペタバイト規模のデータに対して探索的データ分析（EDA）を実行したいと考えています。データエンジニアは、計算リソースの管理を望まず、実行したクエリに対してのみ料金を支払いたいと考えています。データエンジニアは、JupyterノートブックからPythonを使用して分析を記述する必要があります。これらの要件を満たすソリューションはどれですか？

A. Amazon Athena内でApache Sparkを使用します。
B. Amazon SageMaker内でApache Sparkを使用します。
C. Amazon EMRクラスタ内でApache Sparkを使用します。
D. Amazon Redshiftとの統合を通じてApache Sparkを使用します。

正解と解説ディスカッション 0

正解：A

Amazon Athenaは、サーバーレスなクエリサービスであり、Amazon S3に保存された大規模データセット（ペタバイト規模を含む）に対してSQLやApache Sparkを使用した分析をサポートします。AthenaのSpark統合により、データエンジニアはJupyterノートブックからPythonでSparkコードを記述でき、Athenaが計算リソースを自動的に管理します。課金は実行したクエリに基づく従量課金制であり、リソース管理のオーバーヘッドがありません。AthenaのSparkエンジンは、ペタバイト規模のデータ処理に適しており、EDAのためのデータ集計、フィルタリング、可視化を効率的に実行できます。AWSドキュメントでは、AthenaのSpark統合がサーバーレスでPythonベースの分析に最適であると記載されています。このソリューションは、すべての要件（サーバーレス、Python/Jupyter、従量課金、ペタバイト規模対応）を満たします。

Question#12(MLS-C01)

コメント

コメント

コメントするコメントをキャンセル

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル