AI901-Foundry#147-3
注: この問題は、同じ前提を持つ一連の問題の一部です。それぞれの問題には異なる解決策が提示されます。
前提
ある金融機関が、紙の融資申込書 (1 日 2,000 件、A4 で 5〜10 ページ、手書き + 印刷混在、日本語) を OCR で電子化し、後段のシステムに「氏名・住所・電話番号・年収・希望金額」を構造化して渡したいと考えています。要件は正確な構造化抽出、業界専門用語 (融資商品コード 等) への対応、Privacy and security 配慮 (PII 取扱) です。
解決策
基本構成 (Document Intelligence custom + Language PII detection) に加え、低 confidence で抽出された項目だけを Foundry の GPT-4o multimodal にスキャン画像と OCR 結果をセットで送り、「曖昧な手書きや略字の解釈」を Human-in-the-loop の代替として LLM に補強させる 2 段検証フローを構築します。
この解決策は目的を満たしますか?
解説
【判定: はい】の理由
本ソリューションは Microsoft Learn が「Document Intelligence + 生成 AI」のハイブリッド パターンとして紹介する Microsoft 推奨の発展型構成で、要件達成度を大きく高めます。Document Intelligence の custom model で大半の項目を高速 / 低コスト抽出した上で、confidence が閾値未満の項目だけを GPT-4o multimodal に画像 + OCR 結果のセットで送ることにより、手書き略字 / かすれ文字 / レイアウト揺らぎといった汎用モデルが苦手な領域を LLM の柔軟な推論で補強できます。GPT-4o multimodal は画像入力と OCR テキストを文脈として理解し、人間レビューに近い判断を低レイテンシで実現可能です。さらに最終承認は人間レビュアーに渡す Human-in-the-loop プロセスと組み合わせれば、Accountability / Reliability and safety を担保しつつ大半の処理を自動化できる構成が完成します。Foundry hub から Document Intelligence と GPT-4o を connection で一元管理でき、運用負荷も中央集権で抑えられる本番品質の発展設計です。
【「いいえ」が違う理由】
本拡張は Microsoft 公式の「Document Intelligence + LLM」推奨パターンで、要件達成度を高めます。「目的を満たさない」と判断する根拠はありません。
本ソリューションは Microsoft Learn が「Document Intelligence + 生成 AI」のハイブリッド パターンとして紹介する Microsoft 推奨の発展型構成で、要件達成度を大きく高めます。Document Intelligence の custom model で大半の項目を高速 / 低コスト抽出した上で、confidence が閾値未満の項目だけを GPT-4o multimodal に画像 + OCR 結果のセットで送ることにより、手書き略字 / かすれ文字 / レイアウト揺らぎといった汎用モデルが苦手な領域を LLM の柔軟な推論で補強できます。GPT-4o multimodal は画像入力と OCR テキストを文脈として理解し、人間レビューに近い判断を低レイテンシで実現可能です。さらに最終承認は人間レビュアーに渡す Human-in-the-loop プロセスと組み合わせれば、Accountability / Reliability and safety を担保しつつ大半の処理を自動化できる構成が完成します。Foundry hub から Document Intelligence と GPT-4o を connection で一元管理でき、運用負荷も中央集権で抑えられる本番品質の発展設計です。
【「いいえ」が違う理由】
本拡張は Microsoft 公式の「Document Intelligence + LLM」推奨パターンで、要件達成度を高めます。「目的を満たさない」と判断する根拠はありません。

コメント