AI901-Concept#100
本番アプリで Azure OpenAI 推論レイテンシを短縮したい場合、最も効果的かつ実用的な対策はどれですか?
解説
【正解: A】の理由
生成トークン数はレイテンシに直接比例するため、max_tokens を必要分だけに絞ることが第一の最適化です。さらに stream モード (Server-Sent Events) で先頭トークンから順次受信することで、UX 上の体感レイテンシを大幅に改善できます。両者は Azure OpenAI / Foundry SDK で標準サポートされ、実装も容易です。
【他選択肢が違う理由】
生成トークン数はレイテンシに直接比例するため、max_tokens を必要分だけに絞ることが第一の最適化です。さらに stream モード (Server-Sent Events) で先頭トークンから順次受信することで、UX 上の体感レイテンシを大幅に改善できます。両者は Azure OpenAI / Foundry SDK で標準サポートされ、実装も容易です。
【他選択肢が違う理由】
- B: temperature はレイテンシに無関係です。
- C: キー ローテーションとは別問題です。
- D: リソース名はパフォーマンスと無関係です。

コメント