AI901-Concept#59
マルチモーダル (multimodal) モデルの能力として最も適切な記述はどれですか?
解説
【正解: A】の理由
マルチモーダル モデルは複数のデータ形式 (modality) を統一的に扱える設計です。GPT-4o は画像 + テキスト + 音声 + 動画を 1 モデルで扱え、Foundry portal から呼び出せます。画像説明 / 図表 OCR / 音声指示など、Responsible AI Vision / Speech との連携シナリオが広がります。
【他選択肢が違う理由】
マルチモーダル モデルは複数のデータ形式 (modality) を統一的に扱える設計です。GPT-4o は画像 + テキスト + 音声 + 動画を 1 モデルで扱え、Foundry portal から呼び出せます。画像説明 / 図表 OCR / 音声指示など、Responsible AI Vision / Speech との連携シナリオが広がります。
【他選択肢が違う理由】
- B: マルチリージョン デプロイは Azure リソース運用の話で別概念です。
- C: テキスト特化はマルチモーダルではありません。
- D: API キー発行管理とは無関係です。

コメント