機械学習 ウォード法:データの集まりを作る賢い方法
ウォード法は、たくさんの情報から似た特徴を持つものの集まり(集団)を見つける方法です。階層的集団化と呼ばれる方法の一つで、情報の散らばり具合を最も小さくするように集団を作っていきます。
まず、全ての情報を一つ一つの集団として扱います。まるで、一人ひとりが独立した小さなグループのようですね。次に、どの集団同士を組み合わせると全体の散らばりが一番小さくなるかを計算します。例えば、東京都に住んでいる人、大阪府に住んでいる人、北海道に住んでいる人という三つの集団があったとします。東京都と大阪府の集団を組み合わせた場合の散らばり具合と、東京都と北海道の集団を組み合わせた場合の散らばり具合を計算し、より散らばりが小さくなる方を選びます。
最も散らばりが小さくなる組み合わせの集団を一つにまとめます。この手順を何度も繰り返すことで、最終的に目的の数の集団にまとめ上げます。三つの集団を一つにまとめることも、十個の集団を三つにまとめることも可能です。
ウォード法の特徴は、それぞれの段階で最も散らばりが小さくなるように集団を結合していくことです。そのため、似た性質の情報がきれいにまとまりやすいです。例えば、同じ趣味を持つ人々が自然と一つの集団になるように、データも似た者同士で集まるのです。
この方法は、情報の分布を図表などで分かりやすく把握しやすく、情報同士のつながりを理解するのに役立ちます。例えば、顧客の購買履歴を分析することで、どのような商品が一緒に買われているか、顧客の年齢や地域によってどのような購買傾向があるかを明らかにすることができます。このように、ウォード法は様々な分野で活用できる強力な情報分析手法と言えるでしょう。
