AIF-C01#107(fundamentals-generative-ai)

AIF-C01#107(fundamentals-generative-ai)
ある企業は、エッジデバイス上で推論を行うアプリケーションを構築するために言語モデルを使用したいと考えています。この推論では、可能な限り低遅延である必要があります。 この要件を満たすソリューションはどれですか?

正解:A

正解の根拠

エッジデバイスで低遅延推論を実現するには、ネットワーク往復を排除しデバイス内で完結する必要があります。SLM (Small Language Model) は LLM より軽量でメモリ・計算要件が低く、Trainium/Inferentia 用に最適化された SLM をエッジへデプロイすることで、ミリ秒単位の応答時間を実現できます。

デプロイパターン比較

パターン遅延特性
エッジ SLM最低遅延、ローカル完結
エッジ LLMリソース不足で困難
中央 SLM APINW 往復で遅延発生
中央 LLM API遅延大、推論時間も長い

不正解の理由

  • B: 大規模 LLM はパラメータ数が膨大でエッジデバイスの限られたメモリ・計算資源では動作が困難または非実用的です。
  • C: 中央集約 SLM API は通信往復が発生するため、エッジ完結のデプロイより必ずレイテンシが大きくなります。
  • D: 中央 LLM の非同期 API はモデルサイズと通信往復の両方で遅延を悪化させ、エッジ低遅延要件に最も不適合です。

参考:SageMaker Edge Manager


コメント

コメント

コメントする

目次