MENU

会員登録（無料）

AIF-C01#71(foundation-models)

この問題のディスカッション

AIF-C01#71(foundation-models)

AI プラクティショナーは、基盤モデル（FM）を使用して検索アプリケーションを設計したいと考えています。この検索アプリケーションは、テキストと画像の両方を含むクエリを処理する必要があります。検索アプリケーションを強化するために、AI プラクティショナーはどのタイプの基盤モデルを使用すべきですか？

A. マルチモーダル埋め込みモデル
B. テキスト埋め込みモデル
C. マルチモーダル生成モデル
D. 画像生成モデル

正解と解説ディスカッション 0

正解：A

正解の根拠

マルチモーダル埋め込みモデル (例: Amazon Titan Multimodal Embeddings) は、テキストと画像を同一ベクトル空間に埋め込み、クロスモーダルな類似検索を可能にします。テキストクエリで画像を、画像クエリでテキストを検索でき、本問の検索アプリ要件に直接合致します。

FM タイプの比較

モデル	用途
マルチモーダル埋め込み	テキスト/画像クロス検索
テキスト埋め込み	テキスト同士の類似検索
マルチモーダル生成	画像説明や生成
画像生成	テキスト→画像

不正解の理由

B: テキスト埋め込みは画像を扱えないため、テキストと画像を含むクエリの統一検索という要件を満たせません。
C: マルチモーダル生成モデルは画像説明文の生成等が中心で、ベクトル類似による検索インデックスを直接構築する用途ではありません。
D: 画像生成モデルはテキストから画像を生成する出力側のモデルで、検索インデックスや類似度計算には用いられません。

参考：Titan Multimodal Embeddings

コメント

コメント

コメントするコメントをキャンセル