Question#10(MLS-C01)

オンライン小売業者は、顧客の注文に関する以下のデータを収集しています：デモグラフィック、行動、位置、配送状況、配送時間。データサイエンティストは、収集したすべてのデータセットを結合しました。その結果、980の変数を含む単一のデータセットが得られました。データサイエンティストは、マーケティングキャンペーンに応答する可能性が高い顧客のグループを特定する機械学習（ML）モデルを開発する必要があります。この要件を満たすために、データサイエンティストが使用すべきアルゴリズムの組み合わせはどれですか？（2つ選択）

（2つ選択）

A. 潜在ディリクレ配分法（LDA）
B. K-means
C. セマンティックセグメンテーション
D. 主成分分析（PCA）
E. 因子分解マシン（FM）

正解と解説ディスカッション 0

正解：B, D

K-meansは教師なし学習のクラスタリングアルゴリズムであり、顧客データを類似性に基づいてグループに分割するのに適しています。この問題では、マーケティングキャンペーンに応答する可能性が高い顧客のグループを特定する必要があるため、K-meansを使用して顧客を類似の特性（デモグラフィック、行動など）に基づいてクラスタに分け、各クラスタの特性を分析してキャンペーン応答率を評価できます。K-meansは、Amazon SageMakerで提供される組み込みアルゴリズムであり、大量のデータに対して効率的に動作します。顧客セグメンテーションは、マーケティング戦略で一般的に使用されるアプローチであり、K-meansはその目的に最適です。

データセットには980の変数が含まれており、これらの変数は相関している可能性が高いです。PCAは、多数の相関した変数を少数の独立した主成分に変換する次元削減手法であり、モデルのトレーニング効率を向上させ、過剰適合のリスクを軽減します。PCAを前処理として適用することで、K-meansクラスタリングに使用する特徴量の数を減らし、計算コストを削減しながら重要な情報を保持できます。AWSのドキュメントでは、PCAが大規模なデータセットの前処理に推奨されており、K-meansと組み合わせることで顧客セグメンテーションの効率が向上します。この組み合わせにより、マーケティングキャンペーンの対象グループを効果的に特定できます。

Question#10(MLS-C01)

コメント

コメント

コメントするコメントをキャンセル

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル