AIF-C01#107(fundamentals-generative-ai)

ある企業は、エッジデバイス上で推論を行うアプリケーションを構築するために言語モデルを使用したいと考えています。この推論では、可能な限り低遅延である必要があります。この要件を満たすソリューションはどれですか？

A. エッジデバイス上に最適化された小規模言語モデル（SLMs）をデプロイする
B. エッジデバイス上に最適化された大規模言語モデル（LLMs）をデプロイする
C. 中央集約型の小規模言語モデル（SLM）APIを組み込み、エッジデバイスと非同期通信を行う
D. 中央集約型の大規模言語モデル（LLM）APIを組み込み、エッジデバイスと非同期通信を行う

正解：A

正解の根拠

エッジデバイスで低遅延推論を実現するには、ネットワーク往復を排除しデバイス内で完結する必要があります。SLM (Small Language Model) は LLM より軽量でメモリ・計算要件が低く、Trainium/Inferentia 用に最適化された SLM をエッジへデプロイすることで、ミリ秒単位の応答時間を実現できます。

デプロイパターン比較

パターン	遅延特性
エッジ SLM	最低遅延、ローカル完結
エッジ LLM	リソース不足で困難
中央 SLM API	NW 往復で遅延発生
中央 LLM API	遅延大、推論時間も長い

不正解の理由

B: 大規模 LLM はパラメータ数が膨大でエッジデバイスの限られたメモリ・計算資源では動作が困難または非実用的です。
C: 中央集約 SLM API は通信往復が発生するため、エッジ完結のデプロイより必ずレイテンシが大きくなります。
D: 中央 LLM の非同期 API はモデルサイズと通信往復の両方で遅延を悪化させ、エッジ低遅延要件に最も不適合です。

参考：SageMaker Edge Manager

AIF-C01#107(fundamentals-generative-ai)

正解の根拠

デプロイパターン比較

不正解の理由

コメント

コメント

コメントするコメントをキャンセル

正解の根拠

デプロイパターン比較

不正解の理由

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル