Question#56(MLS-C01)
データサイエンティストは、予知保全のためのモデルを作成する必要があります。このモデルは、履歴データに基づいてデータのまれな異常を特定します。履歴データはAmazon S3バケットに保存されています。データサイエンティストは、Amazon SageMaker Data Wranglerを使用してデータをインポートする必要があります。また、データの統計的特性を理解するために、探索的データ分析(EDA)を実行する必要があります。以下のどのソリューションが、最小の計算リソースでこれらの要件を満たしますか?
正解:C
「最初のK(First K)」オプションを使用してデータをインポートし、Kの値をドメイン知識から推測することは、最小の計算リソースで要件を満たします。Data Wranglerの「First K」オプションは、データセットの先頭K行をインポートする単純な方法であり、サンプリングのための追加計算(例:ランダム化や層化)が不要です。Kの値をドメイン知識(例:予知保全データの典型的なサイズや異常の頻度)に基づいて設定することで、異常を含む代表的なサンプルを取得でき、EDAに必要な統計的特性(例:平均、分散、外れ値)を効率的に分析できます。たとえば、Kを数千行に設定すれば、大量データセットの全処理に比べ、メモリとCPU使用量が大幅に削減されます。Data Wranglerのビジュアルインターフェースでは、インポート後のEDA(例:ヒストグラム、統計サマリー)が簡単に実行でき、予知保全モデルの初期分析に適しています。

コメント