スミルノフ・グラブス検定

記事数:(1)

分析

外れ値:データ分析の落とし穴

多くの数値が集まったとき、その集団から大きく外れた値を外れ値といいます。外れ値は、まるで大勢の列からぽつんと離れた迷子のような存在です。たとえば、学校のクラスで考えてみましょう。クラス全体の平均身長が160センチメートルだとすると、ほとんどの生徒の身長は160センチメートル前後でしょう。しかし、もし2メートルを超える生徒がいたらどうでしょうか。その生徒の身長は、他の生徒と比べて極端に高く、外れ値と見なされます。 外れ値は、データ全体の傾向を示す統計値に大きな影響を及ぼす可能性があります。たとえば、平均値は外れ値の影響を受けやすい代表的な指標です。先ほどの身長の例で考えると、2メートルを超える生徒がいることで、クラス全体の平均身長が実際よりも高くなってしまうかもしれません。他にも、標準偏差や分散といった、データのばらつき具合を示す統計量も、外れ値によって大きく変わることがあります。そのため、データ分析を行う際には、外れ値をどう扱うかが重要なポイントとなります。 では、なぜ外れ値が生じるのでしょうか。その原因は様々ですが、数値を入力するときのミスや、数値を測るときのミスといった誤りが原因となっている場合もあります。他に、データそのものの性質が他のデータと大きく異なる場合もあります。たとえば、ある商品の売上が急激に伸びたデータが外れ値として見つかったとします。これは、記録システムの誤りで実際には売上が伸びていないのかもしれませんし、あるいは特別な販促活動など、実際に売上が急増した原因があるのかもしれません。このように、外れ値が見つかった場合は、その原因を注意深く調べることが大切です。原因を特定することで、データ分析の結果をより正確に解釈できるようになります。