Question#23(MLS-C01)

ニュース会社は、編集者向けに記事検索ツールを開発しています。この検索ツールは、過去のニュース記事のコーパス内で、クエリされた特定の単語に対して最も関連性が高く代表的な記事を検索する必要があります。編集者がツールの初版をテストしたところ、ツールが単語の一般的な一致を検索しているようで、クエリされた単語が最も重要な記事を見つけるために追加のフィルタリング作業が必要であると報告しました。データサイエンティストのグループは、ツールを再設計して、記事内で最も頻繁に使用される単語を特定し、コーパス内の各記事における単語の関連性と重要度を捉えるようにする必要があります。これらの要件を満たすソリューションはどれですか？

A. 潜在ディリクレ配分法（LDA）トピックモデリングを使用して、各記事からトピックを抽出します。各記事の単語ごとにトピックのカウントの合計をスコアとして割り当て、トピックテーブルを作成します。クエリされた単語に対してこのトピックカウントスコアが高い記事を検索するようにツールを設定します。
B. 記事の長さで重み付けされた各単語のターム頻度（term frequency）を構築します。コーパス全体の記事で重み付けされた各単語の逆ドキュメント頻度（inverse document frequency）を構築します。これらの頻度の積を最終的なハイライトスコアとして定義します。クエリされた単語に対してこのハイライトスコアが高い記事を検索するようにツールを設定します。
C. 事前学習済みの単語埋め込みルックアップテーブルをダウンロードします。コーパス内の各記事のタイトルに対して単語埋め込みの平均を計算し、タイトル埋め込みテーブルを作成します。各単語のハイライトスコアを、その埋め込みとタイトル埋め込みの距離に反比例するように定義します。クエリされた単語に対してこのハイライトスコアが高い記事を検索するようにツールを設定します。
D. コーパス内の各記事の各単語に対してターム頻度スコアテーブルを構築します。すべてのストップワードにスコア0を割り当てます。その他の単語には、記事内での単語の頻度をスコアとして割り当てます。クエリされた単語に対してこの頻度スコアが高い記事を検索するようにツールを設定します。

正解と解説ディスカッション 0

正解：B

TF-IDF（Term Frequency-Inverse Document Frequency）は、単語の重要度を評価する標準的な手法で、記事内での単語の頻度（TF）と、コーパス全体での単語の希少性（IDF）を組み合わせます。ターム頻度（TF）は、記事の長さで正規化された単語の出現頻度を計算し、長い記事での頻度過多を補正します。逆ドキュメント頻度（IDF）は、コーパス内でまれな単語に高い重みを付与し、一般的すぎる単語（例：ストップワード）の影響を軽減します。TF-IDFスコア（TFとIDFの積）は、単語が記事内で頻繁に使用され、かつコーパス全体で特徴的な場合に高い値となり、クエリされた単語の関連性と重要度を効果的に捉えます。このスコアに基づいて記事を検索することで、編集者はクエリ単語が重要な役割を果たす記事を迅速に特定できます。TF-IDFは実装が比較的簡単で、Amazon SageMakerや他のツール（例：scikit-learn）でサポートされており、テキスト検索の標準的なアプローチとして広く使用されています。AWS環境では、S3に保存された記事データを処理し、TF-IDFを計算して検索ツールに統合することが効率的です。

Question#23(MLS-C01)

コメント

コメント

コメントするコメントをキャンセル

コメント

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル