knn

記事数:(1)

機械学習

k近傍法:機械学習の基礎

身近な例えを用いると、ある人がどの集団に属するかを、その人に近い人々が属する集団を参考に決める方法が、機械学習における「k近傍法」です。この方法は、複雑な計算式や高度な数学の知識を必要とせず、データ間の距離という分かりやすい概念に基づいて分類を行います。 新しいデータがどの集団に属するかを予測する際、k近傍法は、既に集団分けされている既存のデータとの距離を測ります。距離の測り方にはいくつか種類がありますが、一般的には、データの各要素の差の二乗和の平方根を計算する、ユークリッド距離がよく用いられます。例えば、データが2つの数値で表される場合、二点間の直線距離を求めるのと同じ計算方法です。このようにして、既存のデータそれぞれについて、新しいデータとの距離を計算し、距離が近い順にk個のデータを選び出します。kは、利用者が事前に決めておく正の整数値です。 次に、選ばれたk個のデータの中で、最も数の多い集団に、新しいデータを分類します。例えば、kの値を5に設定し、距離が近い5個のデータの中に、Aの集団に属するデータが3個、Bの集団に属するデータが2個あった場合、新しいデータはAの集団に分類されます。このように、k近傍法は、多数決の原理を用いて新しいデータの所属先を決定します。 このkの値は、予測の正確さに大きく影響します。kの値が小さすぎると、周りの少し変わったデータ、いわゆる「外れ値」の影響を受けやすく、予測結果が不安定になります。逆に、kの値が大きすぎると、本来は異なる集団に属するデータの影響を受けてしまい、予測の精度が低下する可能性があります。ちょうど良いkの値は、扱うデータの性質や予測の目的により異なるため、試行錯誤しながら最適な値を見つけることが重要です。k近傍法は、その分かりやすさから、機械学習の入門として最適な手法と言えるでしょう。