中央絶対誤差

記事数:(2)

機械学習

機械学習の評価指標:MedAE入門

真ん中絶対誤差(略して、ま誤差)は、機械学習のモデルがどれくらい正確に数値を予想できるかを測る物差しです。言い換えると、予想した値と本当の値がどれくらい離れているかを測るものです。特に、数値を予想する問題でよく使われます。 ま誤差は、「誤差の絶対値の中央値」として計算されます。まず、モデルに色々な値を予想させます。そして、それぞれの予想値と本当の値の差を調べます。この差を「誤差」と言います。誤差にはプラスとマイナスがありますが、ま誤差では、誤差のプラスマイナスを無視するために、誤差の絶対値を使います。例えば、誤差が「3」と「-5」だった場合、絶対値はどちらも「3」と「5」になります。次に、これらの絶対値を小さい順に並べ替えます。そして、ちょうど真ん中に来る値を見つけます。これがま誤差です。 ま誤差の大きな特徴は、極端に大きい値や小さい値に影響されにくいことです。このような極端な値を外れ値と呼びます。例えば、ほとんどの家の値段が3千万円から5千万円の範囲にある地域で、100億円の城が売られていたとします。もし家の値段を予想するモデルを作った場合、この100億円の城は外れ値になります。普通の誤差(平均絶対誤差)を使うと、この外れ値に大きく影響されてしまいます。しかし、ま誤差は真ん中の値を使うので、このような外れ値に影響されにくく、より信頼できる結果を得ることができます。 つまり、ま誤差は、外れ値を含むかもしれないデータに対して特に役立つ評価方法と言えるでしょう。たくさんのデータの中にいくつかおかしな値が混ざっていても、ま誤差を使えば、モデルの本当の性能を正しく評価することができます。
機械学習

中央絶対誤差:機械学習での活用

中央絶対誤差は、機械学習モデルの良し悪しを測る物差しの一つです。この物差しは、予測値と正解値の差を基に計算されます。具体的には、幾つかのデータそれぞれについて、予測値と正解値がどれくらい離れているかを調べます。それぞれの差を正の値に変換し、それらを大きさの順に並べます。そして、ちょうど真ん中に来る値が中央絶対誤差です。 中央絶対誤差を使う大きな利点は、極端に大きな誤差があるデータの影響を受けにくいことです。例えば、ほとんどのデータで予測値と正解値の差が1程度だったとしても、一つだけ差が100もあるデータがあるとします。この場合、差の平均値は10近くになり、モデルの性能が実際よりも悪く見えてしまいます。しかし、中央絶対誤差では、真ん中の値を見るので、極端な値に引きずられることなく、真の性能に近い値を得られます。 中央絶対誤差と似た指標に平均絶対誤差というものがあります。これは、全ての誤差の平均値をとる物差しです。平均絶対誤差は計算が簡単ですが、先ほど説明したように、極端な値に影響されやすい欠点があります。10個のデータのうち、9個の誤差が1で、1個が100の場合を考えると、平均絶対誤差は約10になりますが、中央絶対誤差は1のままです。このように、外れ値が含まれている可能性がある場合は、中央絶対誤差の方がより信頼できる指標と言えます。 中央絶対誤差は、モデルの典型的な誤差を捉えるのに役立ちます。つまり、多くのデータでどれくらいの誤差が出ているかを把握するのに適しています。ただし、誤差の全体像を把握したい場合は、他の指標も併せて見るのが良いでしょう。中央絶対誤差はあくまでも一つの指標であり、それだけで全てを判断することはできません。様々な指標を組み合わせて使うことで、より深くモデルの性能を理解することができます。