最長距離法:データの分類手法
ものの集まりをいくつかのまとまりに分ける方法の一つに、最長距離法というものがあります。この方法は、まとまり同士の間の離れ具合を測る時に、それぞれのまとまりに含まれるもの同士の離れ具合で一番遠いものを基準にするのが特徴です。
たとえば、二つのまとまりを考えてみましょう。それぞれのまとまりにはたくさんのものが含まれています。これらのまとまり同士の離れ具合を測るには、まず、片方のまとまりに含まれるすべてのものと、もう片方のまとまりに含まれるすべてのものとの間の離れ具合を一つずつ測っていきます。そして、これらの測った値の中で一番大きい値を、二つのまとまり間の離れ具合として採用するのです。
もう少し詳しく説明すると、それぞれのまとまりは、まるで小さな島のようで、島の中にたくさんの家が建っていると想像してみてください。それぞれの家は、データを表しています。そして、家と家の間の距離は、データ間の類似度や非類似度を表しています。二つの島の距離を測るということは、二つのまとまりがどれくらい似ているか、あるいは異なっているかを測るということです。最長距離法では、二つの島にある家の中から、最も遠い家同士の距離を測り、その距離を二つの島の距離とするのです。
このように、最長距離法は、最も遠いもの同士の距離を基準にすることで、まとまり同士が大きく異なるように分類する方法です。この方法は、まとまりの中に含まれるもののばらつきを抑え、それぞれのまとまりをより明確に区別したい場合に有効です。一方で、極端な値に影響されやすいという欠点もあります。例えば、あるまとまりに一つだけ他のものから大きく離れたものがあると、その一つのものの影響で、まとまり同士の距離が大きく見積もられてしまう可能性があります。