Question#14(MLS-C01)

Question#14(MLS-C01)

電子商取引企業は、Amazon SageMakerでXGBoostモデルを開発し、顧客が購入した商品を返品するかどうかを予測しています。データセットは不均衡で、商品を返品する顧客はわずか5%です。データサイエンティストは、返品されるケースをできるだけ多く捕捉するハイパーパラメータを見つけ出す必要があります。企業は計算予算が限られています。データサイエンティストは、これらの要件を最もコスト効率良く満たすにはどうすべきですか?

正解:B

XGBoostのscale_pos_weightハイパーパラメータは、不均衡データセットに対応するために設計されており、正例(返品)と負例(非返品)のクラスの重みを調整します。scale_pos_weightをチューニングすることで、モデルは少数派クラス(返品)をより重視し、Recallを向上させます。csv_weightは存在しないハイパーパラメータ(おそらく問題文の誤植で、eval_metricや他の関連パラメータの意図)ですが、SageMakerのAMTでscale_pos_weightをチューニングすることは不均衡データに有効です。validation:recallを最大化する目標は、返品ケースをできるだけ多く捕捉するという要件に直接対応します。すべてのハイパーパラメータをチューニングする代わりに、不均衡データに最も影響を与えるscale_pos_weightに焦点を当てることで、計算コストを抑え、予算の制約を満たします。AWSドキュメントでは、XGBoostの不均衡データ処理にscale_pos_weightが推奨されており、AMTは効率的なチューニングをサポートします。


コメント

コメント

コメントする

目次