AIF-C01#64(fundamentals-generative-ai)

ある教育会社が、アプリケーションを最新化したいと考えています。このアプリケーションでは、ユーザーがテキストを入力したり、質問の写真を提供したりできるようにします。アプリケーションは、記述による回答とその回答の解説を返します。この要件を満たすモデルタイプはどれですか？

A. コンピュータービジョンモデル (Computer vision model)
B. 大規模マルチモーダル言語モデル (Large multi-modal language model)
C. 拡散モデル (Diffusion model)
D. テキスト読み上げモデル (Text-to-speech model)

正解と解説ディスカッション 0

正解：B

正解の根拠

大規模マルチモーダル言語モデル (LMM) はテキスト、画像、音声など複数モダリティを統一的に処理できる FM で、Anthropic Claude 3 や Amazon Nova の Vision 系がこのカテゴリに該当します。Bedrock 経由で利用すれば、ユーザーがテキスト質問と問題画像を同時に入力し、解答とその解説を自然言語で返すアプリケーションを単一モデルで構築できます。

モデルタイプ比較

タイプ	用途
Multi-modal LLM	テキスト+画像入力で生成
Computer Vision	分類・検出 (Rekognition 等)
Diffusion	画像生成
Text-to-Speech	音声合成

不正解の理由

A: コンピュータビジョンモデルは画像分類や物体検出が主用途で、説明文の生成機能を兼ね備えていません。
C: 拡散モデルは Stable Diffusion 等の画像生成器で、テキスト解答の生成は設計目的外です。
D: テキスト読み上げは音声合成専用で、テキスト/画像入力からの解説生成には適しません。

参考：Bedrock Supported Models

AIF-C01#64(fundamentals-generative-ai)

正解の根拠

モデルタイプ比較

不正解の理由

コメント

コメント

コメントするコメントをキャンセル

正解の根拠

モデルタイプ比較

不正解の理由

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル