AIF-C01#29(fundamentals-ai-ml)
あるヘルスケア企業が、患者の音声を分析して病気の診断精度を向上させるモデルを作成したいと考えています。このプロジェクトのために、企業は何百人もの患者の音声を録音しました。 現在、この企業は録音された音声を、長さや言語に基づいてフィルタリング(選別)しています。 現在のプロジェクトのフェーズは、MLライフサイクルのどのフェーズに該当しますか?
正解:B
正解の根拠
録音音声を長さや言語でフィルタリングする工程は、ノイズや不適切なサンプルを除去してデータセットを整備する作業で、ML ライフサイクルのデータ前処理 (Data Preprocessing) フェーズに該当します。SageMaker Data Wrangler や Glue で前処理ジョブを実装するのが一般的です。
ML ライフサイクル前段の比較
| フェーズ | 主タスク |
|---|---|
| データ収集 | ソースから取得 |
| データ前処理 | クレンジング/フィルタリング |
| 特徴量エンジニアリング | 特徴生成/選択 |
| モデル訓練 | パラメータ学習 |
不正解の理由
- A: データ収集は録音そのものを行う段階で、選別作業は次のフェーズに位置します。
- C: 特徴量エンジニアリングは音響特徴量 (MFCC 等) の生成段階であり、長さ/言語によるフィルタとは別工程です。
- D: モデル訓練は前処理済みデータで学習する段階で、サンプル選別作業のフェーズではありません。

コメント