Question#13(MLS-C01)
データサイエンティストは、.csv形式の新しいデータセットを受け取り、Amazon S3に保存しました。データサイエンティストはこのデータセットを使用して機械学習(ML)モデルをトレーニングします。データサイエンティストはまず、データセットに潜在的なデータ品質の問題を特定する必要があります。データサイエンティストは、欠損値や無効な値を特定し、データセット内の外れ値の数も特定する必要があります。これらの要件を最小の運用労力で満たすソリューションはどれですか?
正解:D
Amazon SageMaker Data Wranglerが.csv形式のデータを直接インポートし、データ品質とインサイトレポートを通じて欠損値、無効な値、外れ値を自動的に特定できるため、運用労力が最小限に抑えられるからです。GUIベースの操作により、データサイエンティストはSQLクエリやデータ変換スクリプトを書く必要がなく、迅速にデータ品質の問題を把握できます。SageMakerエコシステムとの統合により、モデルトレーニングへの移行も効率的です。

コメント