AIF-C01#84(fundamentals-generative-ai)

【問題1/3】ある企業が大規模言語モデル（LLM）を開発し、複数の社内チームで利用できるようにしたいと考えています。各チームのユースケースに適した推論モード（inference mode）を選択する必要があります。以下のリストから、各ユースケースに適した推論モードを選択してください。各推論モードは、一度または複数回選択することができます。【問題/ユースケース】企業のチャットボットは、ユーザーの意図を理解するために、LLM から最小限の遅延で予測を取得する必要がある。

A. バッチ推論（Batch transform）
B. リアルタイム推論（Real-time inference）

正解と解説ディスカッション 0

正解：B

正解の根拠

チャットボットがユーザー意図理解で最小遅延を要する要件は、リアルタイム推論 (Real-time inference) が最適です。SageMaker Real-time Endpoint や Bedrock の InvokeModel は常時稼働の HTTPS エンドポイントで、ミリ秒単位のレイテンシで応答できるため対話 UX に必須です。Provisioned Throughput と組み合わせれば一貫した低遅延を保証できます。

レイテンシ要件と推論モード

要件	適切なモード
対話/数百 ms	Real-time
大量バッチ	Batch Transform
長時間 1 件	Async Inference
断続的	Serverless

不正解の理由

A: バッチ推論は S3 経由の非同期ジョブで起動と書出に時間を要し、対話チャットの最小遅延要件には不適合です。

参考：SageMaker Real-time Inference

AIF-C01#84(fundamentals-generative-ai)

正解の根拠

レイテンシ要件と推論モード

不正解の理由

コメント

コメント

コメントするコメントをキャンセル

正解の根拠

レイテンシ要件と推論モード

不正解の理由

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル