Question#25(MLS-C01)
グローバル企業は、毎日数百の文書を受け取り、処理しています。文書は印刷された.pdf形式または.jpg形式です。機械学習(ML)スペシャリストは、特定のフィールドからテキストを抽出し、文書を分類する自動文書処理ワークフローを構築したいと考えています。MLスペシャリストは、メンテナンスが少ないソリューションを求めています。これらの要件を最小の運用労力で満たすソリューションはどれですか?
正解:D
Amazon Textractは、PDFや画像(.jpgなど)からテキストや構造化データ(例:フォームのフィールドや表)を抽出するマネージドサービスです。事前学習済みのOCRモデルを使用し、特定のフィールド(例:請求書の日付や顧客名)を高精度で抽出できるため、カスタムモデルのトレーニングやメンテナンスが不要です。Amazon Comprehendは、自然言語処理(NLP)のマネージドサービスで、抽出されたテキストを基に文書を分類(例:肯定的/否定的、特定のカテゴリ)できます。Comprehendのカスタム分類機能を使用すれば、会社のニーズに合わせてトレーニング可能ですが、標準機能でも多くのユースケースに対応でき、メンテナンスは最小限です。両サービスはフルマネージドであり、インフラストラクチャ管理やモデル更新をAWSが処理するため、運用労力が非常に低く抑えられます。TextractとComprehendはAWSエコシステム内でシームレスに統合でき、S3に保存された文書を直接処理可能です。AWSドキュメントでは、TextractとComprehendが文書処理ワークフローに最適であると記載されています。

コメント