Question#60(MLS-C01)

機械学習（ML）専門家が金融機関向けに信用スコアモデルを構築しています。ML専門家は、過去3年間の取引データと、取引に関連するサードパーティのメタデータを収集しました。初期モデルを構築した後、ML専門家は、トレーニングデータとテストデータの両方でモデルの精度が低いことを発見しました。ML専門家は、モデルの精度を向上させる必要があります。この要件を満たすソリューションはどれですか？（2つ選択）

（2つ選択）

A. 既存のトレーニングデータのエポック数を増やす。ハイパーパラメータチューニングをさらに実施する。
B. 正則化の量を増やす。特徴量の組み合わせを減らす。
C. 新しいドメイン固有の特徴量を追加する。より複雑なモデルを使用する。
D. 特徴量の組み合わせを減らす。数値属性のビンの数を減らす。
E. トレーニングデータの例の数を減らす。既存のトレーニングデータのエポック数を減らす。

正解と解説ディスカッション 0

正解：A, C

トレーニングデータとテストデータの両方で精度が低い場合、モデルがデータのパターンを十分に学習できていない（低適合）可能性が高いです。エポック数（トレーニングデータに対する反復回数）を増やすことで、モデルがデータのパターンをより深く学習する機会が増え、精度が向上する可能性があります。ただし、エポック数を増やす際は、過学習（overfitting）を防ぐために適切な監視が必要です。さらに、ハイパーパラメータチューニング（例: 学習率、モデルの層数、ノード数など）を追加で行うことで、モデルの構造や学習プロセスを最適化し、データに対する適合度を向上させることができます。Amazon SageMakerでは、自動ハイパーパラメータチューニング機能（例: Hyperparameter Optimization, HPO）を使用して、効率的に最適な設定を見つけることができます。この選択肢は、低適合を改善するための直接的かつ実行可能な方法であり、精度向上に寄与します。

低適合の原因の一つは、モデルがデータのパターンを捉えるのに十分な情報や表現力を持っていないことです。新しいドメイン固有の特徴量（例: 顧客の支払い履歴、クレジット利用率、取引頻度など）を追加することで、モデルが信用スコアを予測するのに役立つ新たな情報を提供できます。金融機関の信用スコアモデルでは、ドメイン知識に基づく特徴量エンジニアリングが精度向上に重要です。さらに、より複雑なモデル（例: 単純な線形モデルから勾配ブースティングやニューラルネットワークに移行）を使用することで、モデルの表現力を高め、複雑なデータパターンを捉える能力を向上させることができます。Amazon SageMakerでは、XGBoost、DeepAR、またはカスタムニューラルネットワークなど、より複雑なアルゴリズムを選択可能です。この選択肢は、低適合を直接的に改善し、精度向上に寄与するため、正解の一つです。

Question#60(MLS-C01)

コメント

コメント

コメントするコメントをキャンセル

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル