情報検索における重要語句抽出：tf-idf

機械学習

2024.11.25

情報検索における重要語句抽出：tf-idf

情報検索における重要語句抽出：tf-idf

AIを知りたい

先生、『tf-idf』ってよく聞くんですけど、どんなものか教えてください。

AIエンジニア

『tf-idf』は、ある単語が、ある文書にとってどれくらい重要かを表す数値だよ。たくさんの文書の中で、ある特定の文書にだけ多く出てくる単語は、その文書にとって重要だよね。

AIを知りたい

なるほど。つまり、ある文書にたくさん出てきて、他の文書にはあまり出てこない単語が重要ということですね？

AIエンジニア

その通り！例えば、「野球」という単語は野球のニュースサイトの記事にはたくさん出てくるけど、他のサイトにはあまり出てこない。だから、「野球」という単語は野球のニュースサイトの記事ではtf-idfの値が高くなるんだ。

tf-idfとは。

「人工知能でよく使われる『tf-idf』という単語について説明します。これは、ことばを処理したり機械学習の分野で使われる用語です。

概念

「概念」とは、物事の本質や共通の特徴を抽象的に捉えた考え方のことです。例えば、「犬」という概念は、様々な種類、大きさ、色の犬に共通する特徴を抽出したものです。柴犬、プードル、ゴールデンレトリバーなど、個々の犬はそれぞれ違いますが、私たちは皆、それらを「犬」という一つの概念で理解しています。

今回扱う「概念」は、文章の中で使われている言葉の重要度を測る方法の一つである「TF-IDF」です。これは、情報を探す時や、文章の内容を分析する時などによく使われます。TF-IDFは、二つの要素を組み合わせて、ある言葉が特定の文章にとってどれほど重要かを判断します。

一つ目の要素は、その言葉が一つの文章の中で何回出てくるかという「頻度」です。ある言葉が一つの文章の中で何度も出てくるとしたら、その言葉はその文章の内容をよく表していると言えるでしょう。例えば、「宇宙」という言葉を何度も使う文章は、おそらく宇宙に関する内容でしょう。

しかし、頻度だけでは不十分です。例えば、「です」「ます」のような言葉は、どんな文章にもよく出てきますが、これらの言葉は、特定の文章の内容を表しているとは言えません。そこで、TF-IDFは二つ目の要素を考慮します。

二つ目の要素は、その言葉がどれだけの数の文章で使われているかという「希少性」です。多くの文章で使われている言葉は、一般的な言葉であり、特定の文章の特徴を表すとは言えません。逆に、特定の少数の文章でしか使われていない言葉は、その文章の内容を特徴づけている可能性が高いです。例えば、「量子もつれ」という言葉は、物理学の専門的な文章でしか使われないでしょう。

TF-IDFは、この頻度と希少性を組み合わせて計算されます。ある言葉が特定の文章の中で何度も出てきて、かつ、他の文章ではあまり使われていない場合、その言葉のTF-IDF値は高くなります。つまり、TF-IDF値が高い言葉は、その文章にとって重要な言葉である可能性が高いと言えるのです。

概念	説明	要素1	要素2	計算方法
TF-IDF	文章中の言葉の重要度を測る方法	頻度 (単語が一つの文章中に出現する回数)	希少性 (単語が出現する文章の数の少なさ)	頻度と希少性を組み合わせて計算

計算方法

計算方法は、単語の重要度を測るための二つの要素を組み合わせたものです。一つ目は、ある文章における単語の出現回数、つまり単語頻度です。単語頻度は、その文章の中で、特定の単語がどれだけ多く使われているかを示す指標です。例えば、ある文章に「計算」という単語が何度も出てくるとすれば、その文章は計算に関する内容である可能性が高いと言えるでしょう。単語頻度の計算方法はいくつかありますが、単純に数える方法や、文章の長さで調整する方法などがあります。文章が長いほど単語の出現回数も増える傾向があるため、文章の長さで調整することで、より正確な比較が可能になります。

二つ目は、逆文章頻度です。これは、ある単語が、どれだけの数の文章に出現しているかを表す指標です。例えば、「計算」のような一般的な単語は、多くの文章で使われているでしょう。一方、「量子計算」のような専門的な単語は、限られた数の文章でしか使われていないはずです。逆文章頻度は、全文書数に対する、その単語が含まれる文章数の割合を元に計算します。この割合の逆数を対数変換することで、値が大きくなりすぎないように調整します。多くの文章で使われている単語は、逆文章頻度の値が小さくなります。逆に、少数の文章でしか使われていない単語は、逆文章頻度の値が大きくなります。つまり、珍しい単語ほど、その文章にとって重要であると判断されます。

最終的な計算方法は、単語頻度と逆文章頻度を掛け合わせるという単純なものです。これにより、ある文章の中で多く出てきて、かつ他の文章ではあまり出てこない単語が、高い値を持つことになります。このような単語は、その文章の内容を特徴づける重要な単語であると考えられます。

要素	説明	計算方法	特徴
単語頻度 (TF)	ある文章における単語の出現回数	単純なカウント、文章の長さで調整など	文章内での単語の重要度を示す
逆文章頻度 (IDF)	単語がどれだけの数の文章に出現しているかを表す指標	全文書数 / 単語を含む文章数 -> 対数変換	珍しい単語ほど値が大きくなる
最終的な計算方法	単語頻度 (TF) × 逆文章頻度 (IDF)		文章中で多く出てきて、他の文章ではあまり出てこない単語が重要な単語

応用例

「単語の頻度と逆文書頻度」は、様々な場面で使われています。よく知られているのは、情報を検索する仕組みに使われていることです。インターネットで調べ物をするとき、入力した言葉と、その言葉を含む文書が、どのくらい関連しているかを計算するのに役立っています。例えば、「人工知能」と検索窓に入力したとします。すると、たくさんのウェブサイトが表示されますが、それぞれのウェブサイトが「人工知能」とどれだけ関係が深いかは、「単語の頻度と逆文書頻度」を使って計算されています。ウェブサイトの中に、「人工知能」という言葉が何回出てきているか、そして、その言葉がどのくらい多くのウェブサイトで使われているかを計算することで、関連性の高さを判断しているのです。ウェブサイトの中に「人工知能」という言葉がたくさん出てきていて、他のウェブサイトではあまり使われていない場合、そのウェブサイトは「人工知能」と深く関連していると判断されます。

また、文章を分類したり、要約したり、重要な言葉を抜き出したりするのにも使われています。例えば、新聞の記事のを自動的に作成する場合を考えてみましょう。記事の中に出てくる言葉の中で、「単語の頻度と逆文書頻度」が高い言葉、つまり、その記事の中でよく出てきて、他の記事ではあまり出てこない言葉を、の言葉として選ぶことができます。そうすることで、記事の内容を短い言葉で的確に表すことができるのです。他にも、たくさんの文章を内容ごとに分類する場合にも、「単語の頻度と逆文書頻度」を使って、それぞれの文章がどの種類に属するかを判断することができます。同じような言葉がたくさん使われている文章は、同じ種類に分類される可能性が高くなります。このように、「単語の頻度と逆文書頻度」は、文章を扱う様々な場面で、文章の特徴を捉えたり、比較したりするのに役立っているのです。

用途	説明	例
情報検索	検索キーワードと文書の関連度を計算	“人工知能”で検索した際に、ウェブサイトごとに”人工知能”という言葉の出現頻度と、他のウェブサイトでの出現頻度を比較して、関連性の高いウェブサイトを表示する。
文章分類	文章の特徴を捉え、類似する文章を分類	同じような単語が多く使われている文章を同じ種類に分類する。
文章要約・キーワード抽出	重要な単語を特定し、文章の要約を作成	記事中で出現頻度が高く、他の記事ではあまり出てこない単語をキーワードとして抽出する。

長所

言葉の重みを数値で表す方法の一つに、ティーエフ・アイディーエフというものがあります。これは、ある言葉が、ある文書の中でどれほど大事な言葉なのかを測るためのものです。この計算方法は比較的簡単で、大きく分けて二つの要素から成り立っています。一つ目は、ティーエフと呼ばれるものです。これは、ある言葉が、一つの文書の中で何回出てくるかという割合です。例えば、「りんご」という単語が、ある文書に１００回出てきて、その文書全体の単語数が１０００語だった場合、ティーエフの値は１００割る１０００で、０．１となります。二つ目は、アイディーエフと呼ばれるものです。これは、ある言葉が、いくつの文書に含まれているかを表す値です。多くの文書に含まれている言葉は、特定の文書にとって重要ではないと考え、値を小さくします。逆に、少数の文書にしか含まれていない言葉は、その文書にとって重要だと考え、値を大きくします。具体的には、全体の文書数÷その言葉が含まれる文書数、の対数をとって計算します。

ティーエフ・アイディーエフは、このティーエフとアイディーエフを掛け合わせて計算します。つまり、ある文書の中にたくさん出てきて、かつ、他の文書にはあまり出てこない言葉は、ティーエフ・アイディーエフの値が高くなり、その文書にとって重要な言葉だと判断されます。この計算は、単語の出現回数と文書数を数えるだけなので、とても単純です。そのため、たくさんのデータがあっても速く計算できます。また、言葉の重みを数値で表せるので、情報探しや言葉の分析といった作業で、客観的な指標として使えます。さらに、日本語だけでなく、他の国の言葉にも対応できるため、様々な言語の文章を扱う際に役立ちます。

用語	説明	計算方法
TF-IDF	ある言葉が、ある文書の中でどれほど大事な言葉なのかを測るためのもの。	TF * IDF
TF (Term Frequency)	ある言葉が、一つの文書の中で何回出てくるかの割合。	(ある言葉の出現回数) / (文書全体の単語数)
IDF (Inverse Document Frequency)	ある言葉が、いくつの文書に含まれているかを表す値。値が大きいほど、その文書にとって重要だと考えられる。	log((全体の文書数) / (その言葉が含まれる文書数))

短所と注意点

単語の出現回数だけを数えて、その単語がどれくらい大切かを判断するやり方（ティーエフ・アイディーエフ）には、いくつか気を付けないといけない点があります。まず、このやり方は、言葉の意味や周りの言葉との関係を全く考えていません。例えば、「すごいですね」という言葉は、本当にすごいことを褒めている場合と、反対に皮肉を言っている場合があります。ティーエフ・アイディーエフでは、このような言葉の裏の意味や、周りの言葉との関係を理解できないので、間違った判断をしてしまうことがあります。

次に、文章の長さによって結果が変わってしまうことがあります。長い文章では、ある言葉が出てくる回数が自然と多くなるので、その言葉が重要だと判断されやすくなります。例えば、「りんご」という言葉を短い文章で１回使うのと、長い文章で５回使うのでは、長い文章の方が「りんご」が重要だと判断されてしまいます。これはおかしいですよね。ですから、文章の長さを同じように揃えるなどの工夫が必要です。

さらに、めったに出てこない言葉は、ティーエフ・アイディーエフでは重要だと判断されやすいですが、本当に重要な言葉とは限りません。例えば、書き間違いや、あまり使われない言葉が、たまたま文章の中に出てくると、それがすごく重要な言葉だと判断されてしまうかもしれません。これは困りますよね。また、本当に意味のある言葉なのか、ただのノイズなのかを区別するのも難しいです。

これらのことから、ティーエフ・アイディーエフだけで文章を分析するのはあまり良くありません。他の分析方法と組み合わせて使うことで、より正確に文章を分析することができます。

注意点	説明	例
文脈無視	言葉の意味や周りの言葉との関係を考慮しないため、皮肉や反語などの表現を正しく理解できない。	「すごいですね」を褒め言葉と皮肉で区別できない。
文章の長さの影響	長い文章では特定の単語の出現回数が増えるため、その単語が不適切に重要視される可能性がある。	短い文章で「りんご」が1回、長い文章で5回出現した場合、長い文章の「りんご」がより重要と判断される。
稀な単語の過大評価	めったに出現しない単語は重要と判断されやすいが、実際には書き間違いやノイズである可能性もある。	書き間違いやあまり使われない単語が重要視される。

発展的な話題

「単語の頻度と逆文書頻度」つまり「ティーエフ・アイディーエフ」は、文章の特徴を捉えるための基本的な手法です。これは、ある単語が特定の文章の中でどれほど多く出てきているかと同時に、多くの文章にわたってどれほど広く使われているかを組み合わせることで、その単語がその文章にとってどれほど重要かを数値化する方法です。

この基本的な考え方をもとに、様々な改良や拡張が研究されています。例えば、ある単語が他の特定の単語と一緒に使われることが多いという「単語の共起関係」を考慮することで、より正確に単語の重要度を測ろうという試みがあります。また、文章の構造、例えばや段落といった情報も利用することで、文章全体の中での単語の役割をより深く理解し、重要度を評価する研究も進んでいます。

さらに、単語一つ一つを見るだけでなく、「句」や「文」といったより大きな単位でティーエフ・アイディーエフを計算する手法も開発されています。これにより、単語単独では捉えきれない、より複雑な意味のつながりを分析に反映させることが可能になります。これらの発展的な手法によって、ティーエフ・アイディーエフの精度は向上し、より高度な文章分析が可能になります。

近年、注目を集めているのが「単語の分散表現」を利用した手法です。これは、単語の意味を多次元の数値ベクトルで表現する技術です。似た意味を持つ単語は似たベクトルで表現されるため、従来のティーエフ・アイディーエフでは捉えきれなかった、単語の意味的な情報を分析に取り入れることができます。例えば、「幸せ」と「喜び」は、文章中での出現頻度が異なる場合でも、意味的に近い言葉であるため、ベクトル表現を使うことでその関連性を捉えることができます。これらの手法は、言葉に関する様々な研究分野で活発に研究開発されており、今後の更なる発展が期待されています。

手法	説明
TF-IDF (単語の頻度と逆文書頻度)	ある単語が特定の文章の中でどれほど多く出てきているかと同時に、多くの文章にわたってどれほど広く使われているかを組み合わせることで、その単語がその文章にとってどれほど重要かを数値化する方法。
単語の共起関係	ある単語が他の特定の単語と一緒に使われることが多いという関係性を考慮することで、より正確に単語の重要度を測ろうという試み。
文章構造の利用	文章の構造(例: 見出し、段落)といった情報も利用することで、文章全体の中での単語の役割をより深く理解し、重要度を評価する研究。
句や文単位でのTF-IDF	単語単独では捉えきれない、より複雑な意味のつながりを分析に反映させることが可能になる手法。
単語の分散表現	単語の意味を多次元の数値ベクトルで表現する技術。似た意味を持つ単語は似たベクトルで表現されるため、従来のTF-IDFでは捉えきれなかった、単語の意味的な情報を分析に取り入れることができる。