Question#12(MLS-C01)
データエンジニアは、ペタバイト規模のデータに対して探索的データ分析(EDA)を実行したいと考えています。データエンジニアは、計算リソースの管理を望まず、実行したクエリに対してのみ料金を支払いたいと考えています。データエンジニアは、JupyterノートブックからPythonを使用して分析を記述する必要があります。これらの要件を満たすソリューションはどれですか?
正解:A
Amazon Athenaは、サーバーレスなクエリサービスであり、Amazon S3に保存された大規模データセット(ペタバイト規模を含む)に対してSQLやApache Sparkを使用した分析をサポートします。AthenaのSpark統合により、データエンジニアはJupyterノートブックからPythonでSparkコードを記述でき、Athenaが計算リソースを自動的に管理します。課金は実行したクエリに基づく従量課金制であり、リソース管理のオーバーヘッドがありません。AthenaのSparkエンジンは、ペタバイト規模のデータ処理に適しており、EDAのためのデータ集計、フィルタリング、可視化を効率的に実行できます。AWSドキュメントでは、AthenaのSpark統合がサーバーレスでPythonベースの分析に最適であると記載されています。このソリューションは、すべての要件(サーバーレス、Python/Jupyter、従量課金、ペタバイト規模対応)を満たします。

コメント