AI901-Foundry#147-2
注: この問題は、同じ前提を持つ一連の問題の一部です。それぞれの問題には異なる解決策が提示されます。
前提
ある金融機関が、紙の融資申込書 (1 日 2,000 件、A4 で 5〜10 ページ、手書き + 印刷混在、日本語) を OCR で電子化し、後段のシステムに「氏名・住所・電話番号・年収・希望金額」を構造化して渡したいと考えています。要件は正確な構造化抽出、業界専門用語 (融資商品コード 等) への対応、Privacy and security 配慮 (PII 取扱) です。
解決策
Read API のみを呼び出し、戻ってきた行テキストを正規表現で氏名 / 住所 / 電話 / 年収 / 金額にマッピングします。Document Intelligence や Language の PII detection は使わず、ソース コード内に PII を平文で保持します。
この解決策は目的を満たしますか?
解説
【判定: いいえ】の理由
本提案は構造化抽出の難しさと Privacy and security の両面で要件を満たせません。Read API は行 / 単語レベルのテキストと bounding box を返すだけで、「氏名」「住所」のようなキー / 値の意味的対応関係は持ちません。正規表現で住所・氏名・金額を抽出しようとすると、申込書ごとのレイアウト差・手書き揺らぎ・項目名 (ふりがな付き / 略称) に対応するルールが爆発的に増え、保守不可能な状態に陥ります。Microsoft 公式ドキュメントは、構造化抽出が必要な業務文書に対しては Document Intelligence の custom model または prebuilt model の利用を強く推奨しています。さらに PII をソース コードに平文保持する設計は Privacy and security 原則と GDPR / 金融業界の規制要件を完全に違反しており、漏洩インシデント発生時の責任問題に直結します。Azure AI Language の PII detection で伏字化するか、機密データを Azure Key Vault / managed identity 経由で扱う構成に改めるべきで、本提案は AI Foundry の Responsible AI ガバナンスを根本から崩します。
【「はい」が違う理由】
構造化抽出の精度・運用性・PII コンプライアンスのいずれも要件を満たせず、本シナリオの設計として失敗です。
本提案は構造化抽出の難しさと Privacy and security の両面で要件を満たせません。Read API は行 / 単語レベルのテキストと bounding box を返すだけで、「氏名」「住所」のようなキー / 値の意味的対応関係は持ちません。正規表現で住所・氏名・金額を抽出しようとすると、申込書ごとのレイアウト差・手書き揺らぎ・項目名 (ふりがな付き / 略称) に対応するルールが爆発的に増え、保守不可能な状態に陥ります。Microsoft 公式ドキュメントは、構造化抽出が必要な業務文書に対しては Document Intelligence の custom model または prebuilt model の利用を強く推奨しています。さらに PII をソース コードに平文保持する設計は Privacy and security 原則と GDPR / 金融業界の規制要件を完全に違反しており、漏洩インシデント発生時の責任問題に直結します。Azure AI Language の PII detection で伏字化するか、機密データを Azure Key Vault / managed identity 経由で扱う構成に改めるべきで、本提案は AI Foundry の Responsible AI ガバナンスを根本から崩します。
【「はい」が違う理由】
構造化抽出の精度・運用性・PII コンプライアンスのいずれも要件を満たせず、本シナリオの設計として失敗です。

コメント