AI901-Foundry#106
コール センターで「録音された通話 (1 日 30,000 件、5〜30 分 / 件) を翌朝までに文字起こししてダッシュボードに集約したい」場合、Azure AI Speech の最も適した利用モードはどれですか?
解説
【正解: A】の理由
Batch transcription は Azure AI Speech が提供する大量音声ファイルの非同期文字起こし REST API で、Blob Storage の SAS URL リストをジョブに渡し、サーバー側が並列処理して JSON 形式の transcript を出力します。1 日 30,000 件 × 数十分のスケールでも translation コスト / 運用工数の両面で最適で、Microsoft Learn のコール センター解析リファレンス アーキテクチャでも標準採用されます。翌朝までの SLA も並列度を上げて十分達成可能です。
【他選択肢が違う理由】
Batch transcription は Azure AI Speech が提供する大量音声ファイルの非同期文字起こし REST API で、Blob Storage の SAS URL リストをジョブに渡し、サーバー側が並列処理して JSON 形式の transcript を出力します。1 日 30,000 件 × 数十分のスケールでも translation コスト / 運用工数の両面で最適で、Microsoft Learn のコール センター解析リファレンス アーキテクチャでも標準採用されます。翌朝までの SLA も並列度を上げて十分達成可能です。
【他選択肢が違う理由】
- B: 手動運用は 30,000 件のスケールに到底耐えません。
- C: VM を 30,000 台立てるのは非現実的な高コストで Anti-Pattern です。
- D: GPT-4o は音声 transcription の専用 API ではなく、Speech-to-Text のほうがコスト / 精度ともに有利です。

コメント