AIF-C01#20(fundamentals-ai-ml)
ある企業が機械学習(ML)モデルを構築しています。同社は新しいデータを収集し、相関行列を作成したり、統計を計算したり、データを視覚化することでデータを分析しました。 この企業が現在取り組んでいるMLパイプラインの段階はどれですか?
正解:C
正解の根拠
相関行列の作成、統計量計算、データ可視化はいずれもデータの分布や関係性を把握するための作業で、ML パイプラインの探索的データ分析 (EDA) フェーズに該当します。EDA で得た知見をもとに前処理や特徴量設計の方針を決定するため、SageMaker Studio Notebook や Data Wrangler の活用が一般的です。
ML パイプライン主要フェーズ
| フェーズ | 主タスク |
|---|---|
| 探索的データ分析 | 統計/可視化/相関分析 |
| データ前処理 | 欠損補完/正規化 |
| 特徴量エンジニアリング | 新規特徴生成 |
| ハイパラチューニング | モデル最適化 |
不正解の理由
- A: データ前処理は欠損補完や正規化など変換が中心で、関係性把握の分析作業を代表する段階ではありません。
- B: 特徴量エンジニアリングは新規特徴の作成段階で、相関分析や統計可視化の主目的とは異なります。
- D: ハイパーパラメータチューニングはモデル訓練後の最適化段階で、データの分布把握とは別フェーズです。

コメント