外れ値

記事数:(3)

分析

外れ値:データ分析の落とし穴

多くの数値が集まったとき、その集団から大きく外れた値を外れ値といいます。外れ値は、まるで大勢の列からぽつんと離れた迷子のような存在です。たとえば、学校のクラスで考えてみましょう。クラス全体の平均身長が160センチメートルだとすると、ほとんどの生徒の身長は160センチメートル前後でしょう。しかし、もし2メートルを超える生徒がいたらどうでしょうか。その生徒の身長は、他の生徒と比べて極端に高く、外れ値と見なされます。 外れ値は、データ全体の傾向を示す統計値に大きな影響を及ぼす可能性があります。たとえば、平均値は外れ値の影響を受けやすい代表的な指標です。先ほどの身長の例で考えると、2メートルを超える生徒がいることで、クラス全体の平均身長が実際よりも高くなってしまうかもしれません。他にも、標準偏差や分散といった、データのばらつき具合を示す統計量も、外れ値によって大きく変わることがあります。そのため、データ分析を行う際には、外れ値をどう扱うかが重要なポイントとなります。 では、なぜ外れ値が生じるのでしょうか。その原因は様々ですが、数値を入力するときのミスや、数値を測るときのミスといった誤りが原因となっている場合もあります。他に、データそのものの性質が他のデータと大きく異なる場合もあります。たとえば、ある商品の売上が急激に伸びたデータが外れ値として見つかったとします。これは、記録システムの誤りで実際には売上が伸びていないのかもしれませんし、あるいは特別な販促活動など、実際に売上が急増した原因があるのかもしれません。このように、外れ値が見つかった場合は、その原因を注意深く調べることが大切です。原因を特定することで、データ分析の結果をより正確に解釈できるようになります。
アルゴリズム

外れ値に強い!トリム平均入門

トリム平均とは、集めた数値から一部の数値を取り除き、残りの数値で平均値を計算する方法です。私たちが普段よく使う平均値は、全ての数値を足し合わせ、その合計を集めた数値の個数で割ることで計算します。これを算術平均と言います。しかし、集めた数値の中に極端に大きな値や小さな値が含まれている場合、算術平均はこれらの極端な値に引っ張られてしまい、データ全体の傾向を正しく表せなくなってしまうことがあります。例えば、10人の仲間の年収を調べた際に、9人が300万円から500万円の年収だったとします。ところが、残りの1人がたまたま大企業の社長で、年収が3億円だったとしましょう。この場合、単純に平均値を計算すると、他の9人の年収が300万円から500万円であるにも関わらず、平均年収は数千万円という大きな値になってしまいます。このような場合、極端な値の影響を取り除き、より実態に近い平均値を求めるためにトリム平均が用いられます。トリム平均では、まず集めた数値を小さい順に並べ替えます。そして、両端から同じ割合の数値を取り除きます。例えば、10個の数値があった場合、両端から10%ずつ、つまり上下から1個ずつの数値を取り除きます。この時、取り除く数値の割合をトリミング率と言います。そして、残った8個の数値を使って平均値を計算します。これがトリム平均です。トリム平均を使うことで、極端に大きな値や小さな値の影響を受けにくく、データ全体の中心的な傾向をより正確に捉えることができます。
機械学習

群平均法:データの塊を比べる賢い方法

多くの情報が集まった大きなデータから、役に立つ知識を見つけるためには、データをいくつかの集まりに分けて、それぞれの集まりの特徴をつかむことが大切です。このようなデータの集まりを「かたまり」と呼ぶことにします。しかし、かたまり同士をどのように比べれば良いのでしょうか?かたまり同士を比べる一つの方法として、「集まり全体を平均した値で比べる方法」があります。この方法は、それぞれの集まりに属するデータの平均値を計算し、その平均値同士の差を見ることで、集まり同士の似ている度合いを測ります。 たとえば、ある商品の購入者のデータを考えてみましょう。購入者の年齢、性別、購入金額など、様々な情報が集まったデータがあるとします。このデータをいくつかの「かたまり」に分けて、それぞれの「かたまり」の特徴を調べたいとします。 まず、年齢のかたまりで考えてみます。20代、30代、40代といった年齢層にデータを分けて、それぞれの年齢層の平均購入金額を計算します。20代の平均購入金額が1万円、30代の平均購入金額が2万円、40代の平均購入金額が3万円だとします。この結果から、年齢層が高くなるにつれて購入金額も高くなる傾向があるとわかります。 次に、性別の「かたまり」で考えてみます。男性と女性にデータを分けて、それぞれの性別の平均購入金額を計算します。男性の平均購入金額が2万円、女性の平均購入金額が1.5万円だとします。この結果から、男性の方が女性よりも購入金額が高い傾向があるとわかります。このように、「集まり全体を平均した値で比べる方法」を使うことで、異なる「かたまり」の特徴を比較し、データ全体をより深く理解することができます。もちろん、平均値だけで比べるのではなく、他の情報も合わせて考えることが大切です。たとえば、それぞれの「かたまり」に含まれるデータの数や、データのばらつき具合なども考慮することで、より正確な分析ができます。 さらに、「集まり全体を平均した値で比べる方法」は、商品の売上予測や顧客の分類など、様々な場面で活用できます。適切なデータ分析を行うことで、ビジネス戦略の改善や新商品の開発など、様々な分野で役立てることができるのです。