Question#56(MLS-C01)

データサイエンティストは、予知保全のためのモデルを作成する必要があります。このモデルは、履歴データに基づいてデータのまれな異常を特定します。履歴データはAmazon S3バケットに保存されています。データサイエンティストは、Amazon SageMaker Data Wranglerを使用してデータをインポートする必要があります。また、データの統計的特性を理解するために、探索的データ分析（EDA）を実行する必要があります。以下のどのソリューションが、最小の計算リソースでこれらの要件を満たしますか？

A. 「なし（None）」オプションを使用してデータをインポートします。
B. 「層化（Stratified）」オプションを使用してデータをインポートします。
C. 「最初のK（First K）」オプションを使用してデータをインポートします。Kの値はドメイン知識から推測します。
D. 「ランダム（Randomized）」オプションを使用してデータをインポートします。ランダムサイズはドメイン知識から推測します。

正解と解説ディスカッション 0

正解：C

「最初のK（First K）」オプションを使用してデータをインポートし、Kの値をドメイン知識から推測することは、最小の計算リソースで要件を満たします。Data Wranglerの「First K」オプションは、データセットの先頭K行をインポートする単純な方法であり、サンプリングのための追加計算（例：ランダム化や層化）が不要です。Kの値をドメイン知識（例：予知保全データの典型的なサイズや異常の頻度）に基づいて設定することで、異常を含む代表的なサンプルを取得でき、EDAに必要な統計的特性（例：平均、分散、外れ値）を効率的に分析できます。たとえば、Kを数千行に設定すれば、大量データセットの全処理に比べ、メモリとCPU使用量が大幅に削減されます。Data Wranglerのビジュアルインターフェースでは、インポート後のEDA（例：ヒストグラム、統計サマリー）が簡単に実行でき、予知保全モデルの初期分析に適しています。

Question#56(MLS-C01)

コメント

コメント

コメントするコメントをキャンセル

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル