AIF-C01#80(fundamentals-generative-ai)
【問題3/3】ある企業が大規模言語モデル(LLM)を開発し、複数の社内チームで利用できるようにしたい と考えています。各チームのユースケースに適した推論モード(inference mode)を選択する必要があります。 以下のリストから、各ユースケースに適した推論モードを選択してください。各推論モードは、一度または複数回選択することができます。 【問題/ユースケース】エンジニアリングチームは、小さなテキストコンテンツを処理し、低遅延の予測を提供する API を作成する必要がある。 

正解:B
正解の根拠
API として小さなテキストを処理し低遅延な予測を返す要件は、リアルタイム推論 (Real-time inference) が最適です。SageMaker Real-time Endpoint や Bedrock の InvokeModel は、HTTPS リクエストに対し数十〜数百 ms で応答を返す常時稼働エンドポイントを提供し、対話型 API のレイテンシ要件を満たします。
SageMaker 推論モード比較
| モード | 用途 |
|---|---|
| Real-time | 低遅延 API、常時稼働 |
| Batch Transform | 大規模オフライン処理 |
| Async | 長時間/大入力の非同期 |
| Serverless | 断続的トラフィック |
不正解の理由
- A: バッチ推論は大量データの一括処理用で、API としての即時応答用途には適しません。S3 経由の入出力で起動コストも生じます。

コメント