Question#26(MLS-C01)

Question#26(MLS-C01)

ある企業は、クレジットカード詐欺を検出したいと考えています。企業は、クレジットカード取引の平均2%が詐欺であることを観察しています。データサイエンティストは、1年間のクレジットカード取引データを使用して分類器をトレーニングします。分類器は詐欺取引を特定する必要があります。企業は、できるだけ多くの詐欺取引を正確に捕捉することを望んでいます。データサイエンティストが分類器を最適化するために使用すべきメトリクスはどれですか?(2つ選択)

(2つ選択)

正解:D, E

F1スコアは、適合率(Precision)と再現率(Recall)の調和平均であり、詐欺取引の検出精度と捕捉率のバランスを評価します。詐欺取引を多く捕捉する(高Recall)一方で、誤って非詐欺取引を詐欺と分類する偽陽性(低Precision)を抑える必要があります。F1スコアは、このトレードオフを考慮し、モデルが詐欺取引を正確に特定する能力を総合的に評価します。不均衡データセットでは、AccuracyよりもF1スコアが適切であり、Recallを最大化しつつ偽陽性を管理するのに役立ちます。SageMakerでは、validation:f1を目標メトリクスとして使用でき、モデルの総合的な性能を最適化します。

真陽性率(True Positive Rate、またはRecall)は、実際に詐欺である取引(正例)のうち、モデルが正しく詐欺として検出した割合を表します。問題文で「できるだけ多くの詐欺取引を捕捉する」ことが求められているため、Recallを最大化することは直接的な目標です。クレジットカード詐欺の検出では、詐欺を見逃す(偽陰性)ことが重大な損失につながるため、高いRecallが優先されます。2%の詐欺取引という不均衡なデータセットでは、Recallを最適化することで、少数派クラスの検出性能を向上させることができます。Amazon SageMakerの分類モデル(例:XGBoostや線形学習者)では、validation:recallをメトリクスとして設定し、ハイパーパラメータチューニングで最適化可能です。


コメント

コメント

コメントする

目次