テキスト分析

記事数:(13)

機械学習

情報検索における重要語句抽出:tf-idf

「概念」とは、物事の本質や共通の特徴を抽象的に捉えた考え方のことです。例えば、「犬」という概念は、様々な種類、大きさ、色の犬に共通する特徴を抽出したものです。柴犬、プードル、ゴールデンレトリバーなど、個々の犬はそれぞれ違いますが、私たちは皆、それらを「犬」という一つの概念で理解しています。 今回扱う「概念」は、文章の中で使われている言葉の重要度を測る方法の一つである「TF-IDF」です。これは、情報を探す時や、文章の内容を分析する時などによく使われます。TF-IDFは、二つの要素を組み合わせて、ある言葉が特定の文章にとってどれほど重要かを判断します。 一つ目の要素は、その言葉が一つの文章の中で何回出てくるかという「頻度」です。ある言葉が一つの文章の中で何度も出てくるとしたら、その言葉はその文章の内容をよく表していると言えるでしょう。例えば、「宇宙」という言葉を何度も使う文章は、おそらく宇宙に関する内容でしょう。 しかし、頻度だけでは不十分です。例えば、「です」「ます」のような言葉は、どんな文章にもよく出てきますが、これらの言葉は、特定の文章の内容を表しているとは言えません。そこで、TF-IDFは二つ目の要素を考慮します。 二つ目の要素は、その言葉がどれだけの数の文章で使われているかという「希少性」です。多くの文章で使われている言葉は、一般的な言葉であり、特定の文章の特徴を表すとは言えません。逆に、特定の少数の文章でしか使われていない言葉は、その文章の内容を特徴づけている可能性が高いです。例えば、「量子もつれ」という言葉は、物理学の専門的な文章でしか使われないでしょう。 TF-IDFは、この頻度と希少性を組み合わせて計算されます。ある言葉が特定の文章の中で何度も出てきて、かつ、他の文章ではあまり使われていない場合、その言葉のTF-IDF値は高くなります。つまり、TF-IDF値が高い言葉は、その文章にとって重要な言葉である可能性が高いと言えるのです。