AIF-C01#107(fundamentals-generative-ai)
ある企業は、エッジデバイス上で推論を行うアプリケーションを構築するために言語モデルを使用したいと考えています。この推論では、可能な限り低遅延である必要があります。 この要件を満たすソリューションはどれですか?
正解:A
正解の根拠
エッジデバイスで低遅延推論を実現するには、ネットワーク往復を排除しデバイス内で完結する必要があります。SLM (Small Language Model) は LLM より軽量でメモリ・計算要件が低く、Trainium/Inferentia 用に最適化された SLM をエッジへデプロイすることで、ミリ秒単位の応答時間を実現できます。
デプロイパターン比較
| パターン | 遅延特性 |
|---|---|
| エッジ SLM | 最低遅延、ローカル完結 |
| エッジ LLM | リソース不足で困難 |
| 中央 SLM API | NW 往復で遅延発生 |
| 中央 LLM API | 遅延大、推論時間も長い |
不正解の理由
- B: 大規模 LLM はパラメータ数が膨大でエッジデバイスの限られたメモリ・計算資源では動作が困難または非実用的です。
- C: 中央集約 SLM API は通信往復が発生するため、エッジ完結のデプロイより必ずレイテンシが大きくなります。
- D: 中央 LLM の非同期 API はモデルサイズと通信往復の両方で遅延を悪化させ、エッジ低遅延要件に最も不適合です。

コメント