AWS 認定機械学習 – 専門知識 WEB問題集

WEB問題集

Question#1(MLS-C01)

ある大学は、新入生の入学者数を増加させるために、ターゲットを絞ったリクルート戦略を開発したいと考えています。データサイエンティストは、学生の学業成績の履歴に関する情報を収集しました。データサイエンティストはそのデータを使用して学生プロファイルを構築したいと考えています。大学はこのプロファイルを使用して、入学する可能性が高い学生をリクルートするためにリソースを割り当てます。

次のうち、特定の志願者が大学に入学する可能性を予測するために、データサイエンティストが取るべきステップの組み合わせはどれですか。(2つ選択してください)

(2つ選択)

ディスカッション 0

正解:A, D

Amazon SageMaker Ground Truth は、教師あり学習に必要なラベル付けデータを効率的に作成するサービスです。過去の入学履歴をもとに「入学済み」「未入学」というラベルを付与することで、分類モデルの学習用データを整えることができます。このプロセスは正しく必要なステップです。

分類アルゴリズム は、入力データ(学業成績の履歴など)から「入学する」か「入学しない」かを予測する教師あり学習において正しい手法です。ロジスティック回帰、ランダムフォレスト、XGBoost など、分類タスク向けのアルゴリズムが利用可能です。

Question#2(MLS-C01)

機械学習(ML)スペシャリストは、Amazon SageMaker の DeepAR 予測アルゴリズム を使用して、CPU ベースの Amazon EC2 オンデマンドインスタンスでモデルをトレーニングしています。現在、モデルのトレーニングには数時間かかっています。ML スペシャリストはモデルのトレーニング時間を短縮したいと考えています。

次のうち、この要件を満たすアプローチはどれですか。(2つ選択してください)

(2つ選択)

ディスカッション 0

正解:C, D

「CPU ベースのインスタンスを GPU ベースに置き換える」は、特に深層学習系のアルゴリズムにおいて大幅にトレーニング時間を削減できます。DeepAR は Recurrent Neural Network(RNN)ベースのアルゴリズムであり、GPU を使用することで効率的にトレーニングを実行できます。

「複数のトレーニングインスタンスを使用する」は、分散トレーニングにより並列化が可能となり、全体の学習時間を短縮します。SageMaker は分散トレーニングをサポートしており、トレーニングジョブを複数インスタンスに分散させることができます。

Question#3(MLS-C01)

ある化学会社は、化学プロセスの異常を特定するために複数の機械学習(ML)ソリューションを開発しました。過去2年間の独立変数の時系列値とラベルが利用可能であり、問題を正確にモデル化するのに十分です。通常の運用ラベルは0、異常運用ラベルは1とマークされています。プロセスの異常は、会社の利益に重大な悪影響を及ぼします。会社はこれらの異常を回避する必要があります。どのメトリクスが、異常を検出する最大の確率を提供するMLソリューションを示しますか?

ディスカッション 0

正解:B

このシナリオの核心は「異常検出に失敗すると大きな損失を招く」という点です。つまり、多少の誤検知(False Positive)があっても、異常を見逃さないことが重要です。

そのため、再現率(Recall, 真の異常のうち正しく異常と予測できた割合) を最大化することが最も重要な評価基準となります。再現率が高ければ、異常を見逃す確率(False Negative)が小さくなり、会社の利益を守ることができます。 選択肢を比較すると、
  • 1(Recall=0.6) は適合率は高いですが、異常を40%も見逃すため不適切です。
  • 2(Recall=0.98) は適合率は低めですが、異常をほとんど見逃さないため、このシナリオに最も適しています。
  • 3(Recall=0.9) は妥当ですが、Recall=0.98のBに劣ります。
  • 4(Recall=0.8) は適合率が高く一見よさそうですが、異常を20%見逃してしまうため不十分です。
したがって、異常検知を最優先する本ケースでは 2 が正解です。
Question#4(MLS-C01)

オンライン配送会社は、注文が行われた瞬間に各配達に最も速い宅配業者を選択したいと考えています。この機能は既存ユーザーと新規ユーザーの双方に対して実装したいと考えています。データサイエンティストはこの目的で XGBoost を用いて都市ごとに個別のモデルを学習し、Amazon S3 に保存しています。

オペレーションエンジニアは、Web クライアントからのリクエストに応答するために Amazon EC2 上でこれらのモデルをホスティングしており、モデルごとに 1 台のインスタンスを割り当てていますが、CPU とメモリの使用率はわずか 5% です。オペレーションエンジニアは不要なリソースの管理を避けたいと考えています。 最小の運用負荷で、この目標を達成できるソリューションはどれですか?
ディスカッション 0

正解:B

本件の課題は、都市ごとに多数のモデルをリアルタイム推論で使い分けたい一方、都市ごとに専用のインフラ(EC2/エンドポイント)を持つと 使用率が低く運用負荷とコストが無駄 になる、という点にあります。Amazon SageMaker の マルチモデルエンドポイント(MME) は、単一エンドポイントで複数モデルをホストし、モデルアーティファクトは S3 からオンデマンドにロード/アンロード され、リクエスト時に TargetModel ヘッダーで使用するモデルを切り替えられます。これにより、インスタンス台数やエンドポイント数を最小化しつつ、同じ計算リソースを多モデルで共有できるため、最小の運用負荷でスケール できるのが 2 です。

Question#5(MLS-C01)

ある会社は、自動運転車両業界向けに深層学習を使用したコンピュータビジョンモデルを構築しています。機械学習(ML)スペシャリストは、CPU:GPU比率が12:1のAmazon EC2インスタンスを使用してモデルをトレーニングしています。MLスペシャリストはインスタンスのメトリクスログを調査し、GPUが時間の半分アイドル状態であることに気づきました。MLスペシャリストは、トレーニングジョブの期間を増加させずにトレーニングコストを削減する必要があります。これらの要件を満たすソリューションはどれですか?

ディスカッション 0

正解:B

選択肢2が最適な理由は、異種クラスターがGPUアイドルをCPUインスタンスへのタスクオフロードで解決し、GPU利用率を向上させてコストを削減しつつ、トレーニング期間を維持できるためです。この機能はSageMakerでサポートされており、コンピュータビジョンモデルのようなワークロードで実証された効果があります。他の選択肢(1、3、4)は、GPU依存の性能低下(1)、中断リスク(3)、または不十分なボトルネック解決(4)の問題があり、要件を満たしません。