AWS 認定機械学習エンジニア – アソシエイト WEB問題集

WEB問題集

Question#1(MLA-C01)

ML エンジニアは、AWS CloudFormation を使用して、Amazon SageMaker エンドポイントがホストする ML モデルを作成する必要があります。この要件を満たすために、CloudFormation テンプレートでどのリソースを宣言すべきですか？

A. AWS::SageMaker::Model
B. AWS::SageMaker::Endpoint
C. AWS::SageMaker::NotebookInstance
D. AWS::SageMaker::Pipeline

正解と解説ディスカッション 0

正解：A

CloudFormation テンプレートを使用して Amazon SageMaker エンドポイントでホストする ML モデルを作成するためには、まず AWS::SageMaker::Model リソースを定義する必要があります。なぜ AWS::SageMaker::Model が正解か？ AWS::SageMaker::Model は、SageMaker エンドポイントにデプロイされるモデルの定義を行う CloudFormation リソースです。モデルアーティファクト（S3 に格納されたモデル）、コンテナイメージ、および IAM ロールを指定して、エンドポイントで使用するモデルを登録できます。エンドポイント（AWS::SageMaker::Endpoint）は、モデルが定義されていないと作成できないため、最初に AWS::SageMaker::Model を作成する必要があります。

Question#2(MLA-C01)

ある広告会社は、AWS Lake Formation を使用してデータレイクを管理しています。データレイクには、構造化データと非構造化データの両方が含まれています。ML エンジニアは、特定の広告キャンペーンに割り当てられています。 ML エンジニアは、次の方法でデータにアクセスする必要があります： Amazon Athena を使用したクエリ実行 Amazon S3 バケットの直接閲覧エンジニアは、自分の担当キャンペーンに関連するリソースのみにアクセスできるようにする必要があります。運用効率を最も高めるソリューションはどれですか？

A. AWS Glue データカタログに IAM ポリシーを設定し、Athena へのアクセスを ML エンジニアのキャンペーンに基づいて制限する。
B. ユーザーとキャンペーン情報を Amazon DynamoDB テーブルに保存し、DynamoDB Streams を使用して AWS Lambda 関数をトリガーし、S3 バケットポリシーを更新する。
C. Lake Formation を使用して AWS Glue が S3 バケットにアクセスできるように認可し、Lake Formation タグを使用して ML エンジニアをキャンペーンにマッピングする。
D. S3 バケットポリシーを設定し、ML エンジニアのキャンペーンに基づいて S3 バケットへのアクセスを制限する。

正解と解説ディスカッション 0

正解：C

AWS Lake Formation は、データレイクに対する詳細なアクセス制御を提供し、特定のユーザーグループごとにアクセス制限を適用できます。 Lake Formation タグベースのアクセス制御（LF-TBAC）のメリット：タグによる動的制御: データセットとユーザーにタグを割り当て、アクセスを自動的に制御可能。例えば、「キャンペーンID」をタグにして、エンジニアが自身のキャンペーンのデータのみ閲覧できるよう設定。 Athena と S3 の両方への制御: Lake Formation を通じて、Athena クエリと S3 バケットの直接閲覧の両方を制御できる。これにより、S3 バケットレベルではなく、より細かいオブジェクトレベルの制御が可能。最小限の管理負担: ユーザー、グループ、リソースの管理を一元化し、手動ポリシー更新の負担を軽減。運用コストを最小限に抑え、スケーラブルなセキュリティ管理が可能。

Question#3(MLA-C01)

ある企業の ML エンジニアは、Amazon SageMaker Canvas を使用して ML モデルのトレーニングを行う必要があります。データは Amazon S3 に保存されており、複雑な構造を持っています。エンジニアは、データの処理時間を最小限にするファイル形式を使用しなければなりません。この要件を満たす最適なファイル形式はどれですか？

A. Snappy 圧縮された CSV ファイル
B. JSONL 形式の JSON オブジェクト
C. gzip 圧縮された JSON ファイル
D. Apache Parquet ファイル

正解と解説ディスカッション 0

正解：D

Apache Parquet は、Amazon SageMaker Canvas で ML モデルのトレーニングに最適なファイル形式です。Parquet フォーマットは以下の理由により、処理時間の最小化に最も適しています：列指向ストレージ（Columnar Storage）特定の列のみを必要とする ML ワークフローでは、必要なデータのみを高速に読み取ることができるため、処理時間を短縮します。高い圧縮率と高速な I/O 処理 Parquet はネイティブに Snappy, Gzip, Brotli などの圧縮をサポートし、データサイズを削減しつつ、処理速度を向上。複雑なデータ構造のサポートネストされた JSON 構造や複雑なスキーマを効率的に処理でき、JSON や CSV よりも効率的に管理できます。 AWS サービスとの互換性 Amazon S3、SageMaker、Athena、Glue など、AWS の分析ツールとシームレスに統合され、追加の変換なしに直接利用可能。

Question#4(MLA-C01)

ML エンジニアは複数の ML モデルを評価し、本番環境で使用する最適なモデルを選択する必要があります。モデルの偽陰性のコストが、誤検知のコストよりもはるかに高いことが分かっています。エンジニアは、モデル選択の際にどの評価指標を最も優先すべきですか？

A. 低精度
B. 高精度
C. 低い再現率
D. 高い再現率

正解と解説ディスカッション 0

正解：D

問題の要件では、偽陰性）を最小限に抑えることが重要です。偽陰性のコストが高いシナリオでは、見逃しが重大な影響を与える可能性があるため、「再現率」を最大化することが最優先事項となります。

Question#5(MLA-C01)

ある企業は、Amazon SageMaker を使用して ML モデルをトレーニングおよびデプロイしました。企業は、SageMaker エンドポイントのすべての API 呼び出しイベントを記録および監視するソリューションを実装する必要があります。また、API 呼び出しの回数がしきい値を超えた際に通知を受け取る必要があります。この要件を満たす最適なソリューションはどれですか？

A. SageMaker Debugger を使用して推論とメトリクスを追跡し、しきい値を超えた場合に通知を提供するカスタムルールを作成する。
B. SageMaker Debugger を使用して推論とメトリクスを追跡し、しきい値を超えた場合に通知を提供する tensor_variance 組み込みルールを使用する。
C. AWS CloudTrail を使用してすべてのエンドポイント呼び出し API イベントを記録し、Amazon CloudWatch ダッシュボードを使用して監視する。 CloudWatch アラームを設定して、しきい値を超えた際に通知を提供する。
D. Amazon CloudWatch ダッシュボードに「Invocations」メトリクスを追加して監視し、CloudWatch アラームを設定してしきい値を超えた際に通知を提供する。

正解と解説ディスカッション 0

正解：D

CloudWatch の「Invocations」メトリクスを活用可能 SageMaker エンドポイントは、すでに CloudWatch へ「Invocations」メトリクスを送信します。これにより、API 呼び出し回数をリアルタイムで監視可能。 CloudWatch アラームによる通知機能 CloudWatch アラームを設定し、API 呼び出し数が指定したしきい値を超えた場合に、Amazon SNS などを使用して通知を自動送信可能。運用負担が最小限追加のコードやカスタムロジックを必要とせず、AWS のネイティブサービスのみで完結。最も適切な選択肢は、「 Amazon CloudWatch ダッシュボードに「Invocations」メトリクスを追加して監視し、CloudWatch アラームを設定してしきい値を超えた際に通知を提供する。」このソリューションにより、以下のメリットを得ることができます：リアルタイム監視： SageMaker の標準メトリクスを即時監視自動通知： CloudWatch アラームを活用したしきい値の管理運用コストの最小化：追加の開発不要、ネイティブ AWS 機能のみで対応可能