AI901-Foundry#123
Custom Neural Voice を訓練する際、Microsoft が必要とするデータの要件として最も適切なものはどれですか?
解説
【正解: B】の理由
Custom Neural Voice は、ブランドが正規に契約・同意を取得した発話者の高品質録音 (スタジオ品質、サンプリング レート 16 kHz 以上) と、対応する書き起こしテキスト (対訳) のペアを訓練データとします。Microsoft の Limited Access ポリシーでは、発話者の本人確認 / 用途申告 / 同意取得が必須で、Responsible AI Standard の Accountability / Reliability and safety の要請に沿った管理プロセスが設けられています。推奨データ量は数百文以上の Custom Lite から数千文の Custom Pro までグレードがあり、用途に応じてグレードを選択します。Speech Studio または Foundry の Custom Voice ワークフローでアップロード・訓練・評価・デプロイが可能です。
【他選択肢が違う理由】
Custom Neural Voice は、ブランドが正規に契約・同意を取得した発話者の高品質録音 (スタジオ品質、サンプリング レート 16 kHz 以上) と、対応する書き起こしテキスト (対訳) のペアを訓練データとします。Microsoft の Limited Access ポリシーでは、発話者の本人確認 / 用途申告 / 同意取得が必須で、Responsible AI Standard の Accountability / Reliability and safety の要請に沿った管理プロセスが設けられています。推奨データ量は数百文以上の Custom Lite から数千文の Custom Pro までグレードがあり、用途に応じてグレードを選択します。Speech Studio または Foundry の Custom Voice ワークフローでアップロード・訓練・評価・デプロイが可能です。
【他選択肢が違う理由】
- A: 無断スクレイピングは同意・本人確認に違反し、Microsoft の Limited Access 規約上禁じられています。
- C: 1 文では多様な発話パターンを学習できず品質が出ません。
- D: 音声データなしでは voice モデルは訓練できません。

コメント