AI901-Foundry#118-1
注: この問題は、同じ前提を持つ一連の問題の一部です。それぞれの問題には異なる解決策が提示されます。
前提
ある教育系企業が、英語学習教材の朗読音声を Azure TTS で量産したいと考えています。要件は (1) 米国アクセント (en-US) と英国アクセント (en-GB) を学習レベルごとに切り替え、(2) ナレーション中に重要語を強調・若干スロー読み、(3) 数字や日付を「2025 / 10 / 31」ではなく「October thirty first, twenty twenty five」と人が話す形式で読み上げ、(4) 月 1,000 本の音声ファイル (mp3) を品質一定で生成する、です。
解決策
SSML を採用し、
<voice> で en-US-JennyNeural と en-GB-LibbyNeural を切り替え、<emphasis> と <prosody rate="-10%"> で重要語を強調・スロー読み、<say-as interpret-as="date"> で日付を自然な読み上げ形式に整形し、SpeechSynthesizer の SpeakSsmlAsync をバッチ実行して mp3 を Blob に保存します。この解決策は目的を満たしますか?
解説
【判定: はい】の理由
本構成は Microsoft Learn の SSML reference と TTS best practices の組み合わせとして模範的で、要件 (1)〜(4) のすべてを正攻法で達成します。
【「いいえ」が違う理由】
SSML は要件 (1)〜(3) の精緻な発話制御に最も適した正攻法で、(4) のスループットも SpeechSynthesizer バッチで十分達成できます。「目的を満たさない」と判断する根拠はありません。
本構成は Microsoft Learn の SSML reference と TTS best practices の組み合わせとして模範的で、要件 (1)〜(4) のすべてを正攻法で達成します。
<voice> タグは Microsoft 公式の prebuilt neural voice (en-US-JennyNeural / en-GB-LibbyNeural 等) を切り替える標準機能で、学習レベルに応じてアクセントを変える要件 (1) を 1 つの SSML ドキュメント内で実現します。<emphasis> と <prosody rate="-10%"> は要件 (2) の重要語強調・スロー読みを精緻に制御でき、<say-as interpret-as="date"> は要件 (3) の日付自然読み上げを SSML 仕様通りに実装する公式機能です。SpeechSynthesizer の SpeakSsmlAsync をバッチで回し mp3 を Blob に保存する設計は、月 1,000 本のスループットを安定して支える定番アーキテクチャで、ファイル品質も合成パラメータ固定により一定に保てます。Foundry hub の connection 経由で Speech リソースを管理すれば運用負荷も中央管理可能で、教育コンテンツ量産パイプラインとして完成度の高い設計です。【「いいえ」が違う理由】
SSML は要件 (1)〜(3) の精緻な発話制御に最も適した正攻法で、(4) のスループットも SpeechSynthesizer バッチで十分達成できます。「目的を満たさない」と判断する根拠はありません。

コメント