AIF-C01#80(fundamentals-generative-ai)

【問題3/3】ある企業が大規模言語モデル（LLM）を開発し、複数の社内チームで利用できるようにしたいと考えています。各チームのユースケースに適した推論モード（inference mode）を選択する必要があります。以下のリストから、各ユースケースに適した推論モードを選択してください。各推論モードは、一度または複数回選択することができます。【問題/ユースケース】エンジニアリングチームは、小さなテキストコンテンツを処理し、低遅延の予測を提供する API を作成する必要がある。

A. バッチ推論（Batch transform）
B. リアルタイム推論（Real-time inference）

正解と解説ディスカッション 0

正解：B

正解の根拠

API として小さなテキストを処理し低遅延な予測を返す要件は、リアルタイム推論 (Real-time inference) が最適です。SageMaker Real-time Endpoint や Bedrock の InvokeModel は、HTTPS リクエストに対し数十〜数百 ms で応答を返す常時稼働エンドポイントを提供し、対話型 API のレイテンシ要件を満たします。

SageMaker 推論モード比較

モード	用途
Real-time	低遅延 API、常時稼働
Batch Transform	大規模オフライン処理
Async	長時間/大入力の非同期
Serverless	断続的トラフィック

不正解の理由

A: バッチ推論は大量データの一括処理用で、API としての即時応答用途には適しません。S3 経由の入出力で起動コストも生じます。

参考：SageMaker Real-time Inference

AIF-C01#80(fundamentals-generative-ai)

正解の根拠

SageMaker 推論モード比較

不正解の理由

コメント

コメント

コメントするコメントをキャンセル

正解の根拠

SageMaker 推論モード比較

不正解の理由

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル