AIF-C01#84(fundamentals-generative-ai)
【問題1/3】ある企業が大規模言語モデル(LLM)を開発し、複数の社内チームで利用できるようにしたい と考えています。各チームのユースケースに適した推論モード(inference mode)を選択する必要があります。 以下のリストから、各ユースケースに適した推論モードを選択してください。各推論モードは、一度または複数回選択することができます。 【問題/ユースケース】企業のチャットボットは、ユーザーの意図を理解するために、LLM から最小限の遅延で予測を取得する必要がある。 

正解:B
正解の根拠
チャットボットがユーザー意図理解で最小遅延を要する要件は、リアルタイム推論 (Real-time inference) が最適です。SageMaker Real-time Endpoint や Bedrock の InvokeModel は常時稼働の HTTPS エンドポイントで、ミリ秒単位のレイテンシで応答できるため対話 UX に必須です。Provisioned Throughput と組み合わせれば一貫した低遅延を保証できます。
レイテンシ要件と推論モード
| 要件 | 適切なモード |
|---|---|
| 対話/数百 ms | Real-time |
| 大量バッチ | Batch Transform |
| 長時間 1 件 | Async Inference |
| 断続的 | Serverless |
不正解の理由
- A: バッチ推論は S3 経由の非同期ジョブで起動と書出に時間を要し、対話チャットの最小遅延要件には不適合です。

コメント