Question#23(MLS-C01)

Question#23(MLS-C01)

ニュース会社は、編集者向けに記事検索ツールを開発しています。この検索ツールは、過去のニュース記事のコーパス内で、クエリされた特定の単語に対して最も関連性が高く代表的な記事を検索する必要があります。編集者がツールの初版をテストしたところ、ツールが単語の一般的な一致を検索しているようで、クエリされた単語が最も重要な記事を見つけるために追加のフィルタリング作業が必要であると報告しました。データサイエンティストのグループは、ツールを再設計して、記事内で最も頻繁に使用される単語を特定し、コーパス内の各記事における単語の関連性と重要度を捉えるようにする必要があります。これらの要件を満たすソリューションはどれですか?

正解:B

TF-IDF(Term Frequency-Inverse Document Frequency)は、単語の重要度を評価する標準的な手法で、記事内での単語の頻度(TF)と、コーパス全体での単語の希少性(IDF)を組み合わせます。ターム頻度(TF)は、記事の長さで正規化された単語の出現頻度を計算し、長い記事での頻度過多を補正します。逆ドキュメント頻度(IDF)は、コーパス内でまれな単語に高い重みを付与し、一般的すぎる単語(例:ストップワード)の影響を軽減します。TF-IDFスコア(TFとIDFの積)は、単語が記事内で頻繁に使用され、かつコーパス全体で特徴的な場合に高い値となり、クエリされた単語の関連性と重要度を効果的に捉えます。このスコアに基づいて記事を検索することで、編集者はクエリ単語が重要な役割を果たす記事を迅速に特定できます。TF-IDFは実装が比較的簡単で、Amazon SageMakerや他のツール(例:scikit-learn)でサポートされており、テキスト検索の標準的なアプローチとして広く使用されています。AWS環境では、S3に保存された記事データを処理し、TF-IDFを計算して検索ツールに統合することが効率的です。


コメント

コメント

コメントする

目次