AIF-C01#64(fundamentals-generative-ai)
ある教育会社が、アプリケーションを最新化したいと考えています。このアプリケーションでは、ユーザーがテキストを入力したり、質問の写真を提供したりできるようにします。アプリケーションは、記述による回答とその回答の解説を返します。 この要件を満たすモデルタイプはどれですか?
正解:B
正解の根拠
大規模マルチモーダル言語モデル (LMM) はテキスト、画像、音声など複数モダリティを統一的に処理できる FM で、Anthropic Claude 3 や Amazon Nova の Vision 系がこのカテゴリに該当します。Bedrock 経由で利用すれば、ユーザーがテキスト質問と問題画像を同時に入力し、解答とその解説を自然言語で返すアプリケーションを単一モデルで構築できます。
モデルタイプ比較
| タイプ | 用途 |
|---|---|
| Multi-modal LLM | テキスト+画像入力で生成 |
| Computer Vision | 分類・検出 (Rekognition 等) |
| Diffusion | 画像生成 |
| Text-to-Speech | 音声合成 |
不正解の理由
- A: コンピュータビジョンモデルは画像分類や物体検出が主用途で、説明文の生成機能を兼ね備えていません。
- C: 拡散モデルは Stable Diffusion 等の画像生成器で、テキスト解答の生成は設計目的外です。
- D: テキスト読み上げは音声合成専用で、テキスト/画像入力からの解説生成には適しません。

コメント