AWS 認定機械学習エンジニア – アソシエイト WEB問題集

WEB問題集

Question#1(MLA-C01)
ML エンジニアは、AWS CloudFormation を使用して、Amazon SageMaker エンドポイントがホストする ML モデルを作成する必要があります。 この要件を満たすために、CloudFormation テンプレートでどのリソースを宣言すべきですか?
ディスカッション 0

正解:A

CloudFormation テンプレートを使用して Amazon SageMaker エンドポイントでホストする ML モデルを作成するためには、まず AWS::SageMaker::Model リソースを定義する必要があります。 なぜ AWS::SageMaker::Model が正解か? AWS::SageMaker::Model は、SageMaker エンドポイントにデプロイされるモデルの定義を行う CloudFormation リソースです。 モデルアーティファクト(S3 に格納されたモデル)、コンテナイメージ、および IAM ロールを指定して、エンドポイントで使用するモデルを登録できます。 エンドポイント(AWS::SageMaker::Endpoint) は、モデルが定義されていないと作成できないため、最初に AWS::SageMaker::Model を作成する必要があります。
Question#2(MLA-C01)
ある広告会社は、AWS Lake Formation を使用してデータレイクを管理しています。データレイクには、構造化データと非構造化データの両方が含まれています。ML エンジニアは、特定の広告キャンペーンに割り当てられています。 ML エンジニアは、次の方法でデータにアクセスする必要があります: Amazon Athena を使用したクエリ実行 Amazon S3 バケットの直接閲覧 エンジニアは、自分の担当キャンペーンに関連するリソースのみにアクセスできるようにする必要があります。 運用効率を最も高めるソリューションはどれですか?
ディスカッション 0

正解:C

AWS Lake Formation は、データレイクに対する詳細なアクセス制御を提供し、特定のユーザーグループごとにアクセス制限を適用できます。 Lake Formation タグベースのアクセス制御(LF-TBAC)のメリット: タグによる動的制御: データセットとユーザーにタグを割り当て、アクセスを自動的に制御可能。 例えば、「キャンペーンID」をタグにして、エンジニアが自身のキャンペーンのデータのみ閲覧できるよう設定。 Athena と S3 の両方への制御: Lake Formation を通じて、Athena クエリと S3 バケットの直接閲覧の両方を制御できる。 これにより、S3 バケットレベルではなく、より細かいオブジェクトレベルの制御が可能。 最小限の管理負担: ユーザー、グループ、リソースの管理を一元化し、手動ポリシー更新の負担を軽減。 運用コストを最小限に抑え、スケーラブルなセキュリティ管理が可能。
Question#3(MLA-C01)
ある企業の ML エンジニアは、Amazon SageMaker Canvas を使用して ML モデルのトレーニングを行う必要があります。データは Amazon S3 に保存されており、複雑な構造を持っています。エンジニアは、データの処理時間を最小限にするファイル形式を使用しなければなりません。 この要件を満たす最適なファイル形式はどれですか?
ディスカッション 0

正解:D

Apache Parquet は、Amazon SageMaker Canvas で ML モデルのトレーニングに最適なファイル形式です。Parquet フォーマットは以下の理由により、処理時間の最小化に最も適しています: 列指向ストレージ(Columnar Storage) 特定の列のみを必要とする ML ワークフローでは、必要なデータのみを高速に読み取ることができるため、処理時間を短縮します。 高い圧縮率と高速な I/O 処理 Parquet はネイティブに Snappy, Gzip, Brotli などの圧縮をサポートし、データサイズを削減しつつ、処理速度を向上。 複雑なデータ構造のサポート ネストされた JSON 構造や複雑なスキーマを効率的に処理でき、JSON や CSV よりも効率的に管理できます。 AWS サービスとの互換性 Amazon S3、SageMaker、Athena、Glue など、AWS の分析ツールとシームレスに統合され、追加の変換なしに直接利用可能。
Question#4(MLA-C01)
ML エンジニアは複数の ML モデルを評価し、本番環境で使用する最適なモデルを選択する必要があります。モデルの偽陰性のコストが、誤検知のコストよりもはるかに高いことが分かっています。 エンジニアは、モデル選択の際にどの評価指標を最も優先すべきですか?
ディスカッション 0

正解:D

問題の要件では、偽陰性)を最小限に抑えることが重要です。偽陰性のコストが高いシナリオでは、見逃しが重大な影響を与える可能性があるため、「再現率」を最大化することが最優先事項となります。
Question#5(MLA-C01)
ある企業は、Amazon SageMaker を使用して ML モデルをトレーニングおよびデプロイしました。企業は、SageMaker エンドポイントのすべての API 呼び出しイベントを記録および監視するソリューションを実装する必要があります。また、API 呼び出しの回数がしきい値を超えた際に通知を受け取る必要があります。 この要件を満たす最適なソリューションはどれですか?
ディスカッション 0

正解:D

CloudWatch の「Invocations」メトリクスを活用可能 SageMaker エンドポイントは、すでに CloudWatch へ「Invocations」メトリクスを送信します。 これにより、API 呼び出し回数をリアルタイムで監視可能。 CloudWatch アラームによる通知機能 CloudWatch アラームを設定し、API 呼び出し数が指定したしきい値を超えた場合に、Amazon SNS などを使用して通知を自動送信可能。 運用負担が最小限 追加のコードやカスタムロジックを必要とせず、AWS のネイティブサービスのみで完結。 最も適切な選択肢は、「 Amazon CloudWatch ダッシュボードに「Invocations」メトリクスを追加して監視し、CloudWatch アラームを設定してしきい値を超えた際に通知を提供する。」 このソリューションにより、以下のメリットを得ることができます: リアルタイム監視: SageMaker の標準メトリクスを即時監視 自動通知: CloudWatch アラームを活用したしきい値の管理 運用コストの最小化: 追加の開発不要、ネイティブ AWS 機能のみで対応可能