ロバスト統計

記事数:(1)

アルゴリズム

外れ値に強い!トリム平均入門

トリム平均とは、集めた数値から一部の数値を取り除き、残りの数値で平均値を計算する方法です。私たちが普段よく使う平均値は、全ての数値を足し合わせ、その合計を集めた数値の個数で割ることで計算します。これを算術平均と言います。しかし、集めた数値の中に極端に大きな値や小さな値が含まれている場合、算術平均はこれらの極端な値に引っ張られてしまい、データ全体の傾向を正しく表せなくなってしまうことがあります。例えば、10人の仲間の年収を調べた際に、9人が300万円から500万円の年収だったとします。ところが、残りの1人がたまたま大企業の社長で、年収が3億円だったとしましょう。この場合、単純に平均値を計算すると、他の9人の年収が300万円から500万円であるにも関わらず、平均年収は数千万円という大きな値になってしまいます。このような場合、極端な値の影響を取り除き、より実態に近い平均値を求めるためにトリム平均が用いられます。トリム平均では、まず集めた数値を小さい順に並べ替えます。そして、両端から同じ割合の数値を取り除きます。例えば、10個の数値があった場合、両端から10%ずつ、つまり上下から1個ずつの数値を取り除きます。この時、取り除く数値の割合をトリミング率と言います。そして、残った8個の数値を使って平均値を計算します。これがトリム平均です。トリム平均を使うことで、極端に大きな値や小さな値の影響を受けにくく、データ全体の中心的な傾向をより正確に捉えることができます。