AI901-Foundry#169
GPT-4o multimodal が単機能 Vision API (Image Analysis / Custom Vision) より特に有効になるユース ケースを 2 つ選択してください。
2 つ選択してください
解説
【正解: A, D】の理由
A は GPT-4o multimodal の本領で、画像の文脈を読み解いて自由形式のテキスト応答を返すユース ケース (機器エラー表示の解釈 → 対処手順案内 / 図面を見て質問対応 / 画像 + 仕様書をまとめて推論する) は単機能 Vision API では実現できません。D も同様に強みで、会話履歴 + 複数画像 + テキストを組み合わせた対話型のサポート アシスタント (例: 顧客から送られた製品写真を見ながら原因を推定するヘルプ デスク AI) は multimodal モデルの強い適用領域です。
【他選択肢が違う理由】
A は GPT-4o multimodal の本領で、画像の文脈を読み解いて自由形式のテキスト応答を返すユース ケース (機器エラー表示の解釈 → 対処手順案内 / 図面を見て質問対応 / 画像 + 仕様書をまとめて推論する) は単機能 Vision API では実現できません。D も同様に強みで、会話履歴 + 複数画像 + テキストを組み合わせた対話型のサポート アシスタント (例: 顧客から送られた製品写真を見ながら原因を推定するヘルプ デスク AI) は multimodal モデルの強い適用領域です。
【他選択肢が違う理由】
- B / C: 大量定型バッチや単機能 API で十分なタスクは Image Analysis のほうがコスト / レイテンシで有利です。
- E: 音声書き起こしは STT で、Vision Multimodal の中核ではありません。

コメント