AI901-Concept#111-2
注: この問題は、同じ前提を持つ一連の問題の一部です。それぞれの問題には異なる解決策が提示されます。
前提
ある損害保険会社が、顧客から送信される事故報告 (テキスト + 現場写真 + 通話音声 + ダッシュカム動画) を AI で自動処理して査定担当者を支援するシステムを Azure AI Foundry で構築しています。複数の AI ワークロードを統合する必要があります。
解決策
通話音声をテキストに書き起こして検索可能にするために Azure AI Vision の OCR 機能を使用し、computer vision ワークロードとして実装します。
この解決策は目的を満たしますか?
解説
【判定: いいえ】の理由
音声の書き起こしは speech ワークロード (specifically speech-to-text / STT) で実装すべき機能で、Azure AI Speech サービスの担当領域です。Azure AI Vision の OCR は画像内テキストを抽出する computer vision 機能であり、音声入力には適用できません。ワークロード カテゴリーの誤分類はサービス選定ミスに直結し、本番運用で機能しないか実装不能となります。正しくは Azure AI Speech の speech-to-text API を Foundry から呼び出す構成にすべきです。
【「はい」が違う理由】
音声と画像は入力モダリティが根本的に異なり、OCR では音声を処理できません。「目的を満たす」と判定するのは技術的に不可能であり、本ソリューションは設計の根本誤りです。 Foundry の機能選定ガイドにも整合しません。
音声の書き起こしは speech ワークロード (specifically speech-to-text / STT) で実装すべき機能で、Azure AI Speech サービスの担当領域です。Azure AI Vision の OCR は画像内テキストを抽出する computer vision 機能であり、音声入力には適用できません。ワークロード カテゴリーの誤分類はサービス選定ミスに直結し、本番運用で機能しないか実装不能となります。正しくは Azure AI Speech の speech-to-text API を Foundry から呼び出す構成にすべきです。
【「はい」が違う理由】
音声と画像は入力モダリティが根本的に異なり、OCR では音声を処理できません。「目的を満たす」と判定するのは技術的に不可能であり、本ソリューションは設計の根本誤りです。 Foundry の機能選定ガイドにも整合しません。

コメント