Question#14(MLS-C01)

電子商取引企業は、Amazon SageMakerでXGBoostモデルを開発し、顧客が購入した商品を返品するかどうかを予測しています。データセットは不均衡で、商品を返品する顧客はわずか5%です。データサイエンティストは、返品されるケースをできるだけ多く捕捉するハイパーパラメータを見つけ出す必要があります。企業は計算予算が限られています。データサイエンティストは、これらの要件を最もコスト効率良く満たすにはどうすべきですか？

A. 自動モデルチューニング（AMT）を使用して、すべての可能なハイパーパラメータをチューニングします。次の設定で最適化します：{"HyperParameterTuningJobObjective": {"MetricName": "validation:accuracy", "Type": "Maximize"}}。
B. 自動モデルチューニング（AMT）を使用して、csv_weightハイパーパラメータとscale_pos_weightハイパーパラメータをチューニングします。次の設定で最適化します：{"HyperParameterTuningJobObjective": {"MetricName": "validation:recall", "Type": "Maximize"}}。
C. 自動モデルチューニング（AMT）を使用して、すべての可能なハイパーパラメータをチューニングします。次の設定で最適化します：{"HyperParameterTuningJobObjective": {"MetricName": "validation:f1", "Type": "Maximize"}}。
D. 自動モデルチューニング（AMT）を使用して、csv_weightハイパーパラメータとscale_pos_weightハイパーパラメータをチューニングします。次の設定で最適化します：{"HyperParameterTuningJobObjective": {"MetricName": "validation:f1", "Type": "Minimize"}}。

正解と解説ディスカッション 0

正解：B

XGBoostのscale_pos_weightハイパーパラメータは、不均衡データセットに対応するために設計されており、正例（返品）と負例（非返品）のクラスの重みを調整します。scale_pos_weightをチューニングすることで、モデルは少数派クラス（返品）をより重視し、Recallを向上させます。csv_weightは存在しないハイパーパラメータ（おそらく問題文の誤植で、eval_metricや他の関連パラメータの意図）ですが、SageMakerのAMTでscale_pos_weightをチューニングすることは不均衡データに有効です。validation:recallを最大化する目標は、返品ケースをできるだけ多く捕捉するという要件に直接対応します。すべてのハイパーパラメータをチューニングする代わりに、不均衡データに最も影響を与えるscale_pos_weightに焦点を当てることで、計算コストを抑え、予算の制約を満たします。AWSドキュメントでは、XGBoostの不均衡データ処理にscale_pos_weightが推奨されており、AMTは効率的なチューニングをサポートします。

Question#14(MLS-C01)

コメント

コメント

コメントするコメントをキャンセル

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル