AIF-C01#64(fundamentals-generative-ai)

AIF-C01#64(fundamentals-generative-ai)
ある教育会社が、アプリケーションを最新化したいと考えています。このアプリケーションでは、ユーザーがテキストを入力したり、質問の写真を提供したりできるようにします。アプリケーションは、記述による回答とその回答の解説を返します。 この要件を満たすモデルタイプはどれですか?

正解:B

正解の根拠

大規模マルチモーダル言語モデル (LMM) はテキスト、画像、音声など複数モダリティを統一的に処理できる FM で、Anthropic Claude 3 や Amazon Nova の Vision 系がこのカテゴリに該当します。Bedrock 経由で利用すれば、ユーザーがテキスト質問と問題画像を同時に入力し、解答とその解説を自然言語で返すアプリケーションを単一モデルで構築できます。

モデルタイプ比較

タイプ用途
Multi-modal LLMテキスト+画像入力で生成
Computer Vision分類・検出 (Rekognition 等)
Diffusion画像生成
Text-to-Speech音声合成

不正解の理由

  • A: コンピュータビジョンモデルは画像分類や物体検出が主用途で、説明文の生成機能を兼ね備えていません。
  • C: 拡散モデルは Stable Diffusion 等の画像生成器で、テキスト解答の生成は設計目的外です。
  • D: テキスト読み上げは音声合成専用で、テキスト/画像入力からの解説生成には適しません。

参考:Bedrock Supported Models


コメント

コメント

コメントする

目次