AIF-C01#71(foundation-models)
AI プラクティショナーは、基盤モデル(FM)を使用して検索アプリケーションを設計したいと考えています。この検索アプリケーションは、テキストと画像の両方を含むクエリを処理する必要があります。 検索アプリケーションを強化するために、AI プラクティショナーはどのタイプの基盤モデルを使用すべきですか?
正解:A
正解の根拠
マルチモーダル埋め込みモデル (例: Amazon Titan Multimodal Embeddings) は、テキストと画像を同一ベクトル空間に埋め込み、クロスモーダルな類似検索を可能にします。テキストクエリで画像を、画像クエリでテキストを検索でき、本問の検索アプリ要件に直接合致します。
FM タイプの比較
| モデル | 用途 |
|---|---|
| マルチモーダル埋め込み | テキスト/画像クロス検索 |
| テキスト埋め込み | テキスト同士の類似検索 |
| マルチモーダル生成 | 画像説明や生成 |
| 画像生成 | テキスト→画像 |
不正解の理由
- B: テキスト埋め込みは画像を扱えないため、テキストと画像を含むクエリの統一検索という要件を満たせません。
- C: マルチモーダル生成モデルは画像説明文の生成等が中心で、ベクトル類似による検索インデックスを直接構築する用途ではありません。
- D: 画像生成モデルはテキストから画像を生成する出力側のモデルで、検索インデックスや類似度計算には用いられません。

コメント