Question#58(MLS-C01)

ある機械学習（ML）エンジニアが、分類モデル用のデータセットを準備しています。MLエンジニアは、一部の連続数値特徴量の値が他のほとんどの特徴量よりも著しく大きいことに気付きました。ビジネス専門家は、これらの特徴量がそれぞれ独立して有益な情報を提供しており、データセットが目標分布を代表していると説明しました。トレーニング後、モデルの推論精度が予想よりも低いことがわかりました。どの前処理技術がモデルの推論精度を最も大きく向上させるでしょうか？

A. 問題のある特徴量を正規化する
B. 問題のある特徴量をブートストラップする。
C. 問題のある特徴量を削除する。
D. 合成特徴量を外挿する。

正解と解説ディスカッション 0

正解：A

一部の連続数値特徴量の値が他の特徴量よりも著しく大きい場合、特徴量のスケールが大きく異なることで、機械学習モデル（特に勾配ベースのアルゴリズム、例えばロジスティック回帰、ニューラルネットワーク、SVMなど）の学習が不安定になることがあります。たとえば、値の範囲が広い特徴量は、勾配計算や距離ベースの計算（例: KNNやSVM）において過度に影響を与え、モデルが他の有益な特徴量を適切に考慮できなくなる可能性があります。ビジネス専門家がこれらの特徴量が「独立して有益」であると述べていることから、これらの特徴量には重要な情報が含まれていると考えられます。正規化（Normalization）は、特徴量の値を共通のスケール（通常は[0, 1]や[-1, 1]）に変換する手法で、特徴量の情報量を保持しつつスケールの違いを解消します。たとえば、Min-Maxスケーリングや標準化（Zスコア正規化）を使用することで、すべての特徴量がモデルに均等に寄与するようになり、学習が安定し、推論精度が向上する可能性が高まります。この手法は迅速に適用でき、データセットの代表性を損なわず、モデルのパフォーマンスを改善する効果が期待できます。

Question#58(MLS-C01)

コメント

コメント

コメントするコメントをキャンセル

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル