回帰分析アーカイブ - 新しいAI解説 +プラス

RMSE：予測精度を測る指標

二乗平均平方根誤差（にしじょうへいきんへいほうこんごさ）とは、予測した値と実際の値との間の違いを測る尺度のことです。たとえば、ある製品の来月の売上高を予測するモデルを作ったとします。このモデルを使って予測した売上高と、実際に来月になったときに観測された売上高の間には、当然ながら差が生じるでしょう。この差が小さいほど、モデルの予測精度が高いと言えます。二乗平均平方根誤差は、まさにこの差を数値化し、モデルの良し悪しを判断するために使われます。具体的には、まず予測値と実測値の差を計算し、それを二乗します。二乗する理由は、差が正負どちらであっても、その大きさを評価するためです。もし二乗しなければ、正の差と負の差が相殺されてしまい、全体の誤差を正しく評価できません。次に、二乗した差を全て足し合わせ、データの個数で平均を取ります。これにより、データ全体における平均的な誤差が分かります。最後に、この平均値の平方根を計算します。平方根を取ることで、元のデータと同じ単位で誤差を評価できるようになります。二乗平均平方根誤差は、特に連続値を予測する問題（回帰問題）でよく使われます。例えば、売上予測や株価予測、気温予測などです。この尺度は、誤差が大きいデータの影響を大きく受けるという特徴があります。つまり、外れ値に敏感な尺度と言えるでしょう。これは、誤差を二乗することで、大きな誤差がより強調されるためです。もし外れ値の影響を小さくしたい場合は、代わりに平均絶対誤差などの別の尺度を用いると良いでしょう。二乗平均平方根誤差は、値が小さいほど予測精度が高いことを示します。ゼロであれば、予測値と実測値が完全に一致していることを意味します。しかし、現実のデータでは誤差がゼロになることはほとんどありません。重要なのは、複数のモデルを比較する際に、二乗平均平方根誤差の値が小さいモデルの方が予測精度が高いと判断できることです。

2024.11.27

機械学習

Huber損失：機械学習で頑健な回帰を実現

機械学習は、まるで人間のようにコンピュータに学習させる技術です。この学習において、コンピュータの予測がどれほど正確かを測る物差しが「損失関数」です。特に、数値を予測する「回帰問題」でよく使われます。損失関数は、コンピュータの予測値と実際の正解値の差を計算します。この差が小さいほど、予測が正確であることを意味し、損失関数の値も小さくなります。逆に、予測が大きく外れていると、損失関数の値は大きくなります。つまり、損失関数の値は、コンピュータの予測の「悪さ」を表す指標と言えるでしょう。学習の目標は、この損失関数の値をできるだけ小さくすること、すなわち予測の悪さを減らすことです。損失関数の種類は様々で、それぞれ異なる特徴を持っています。よく使われるものの一つに「平均二乗誤差」があります。これは、予測値と正解値の差を二乗し、その平均を計算したものです。二乗することで、差が大きいほど損失が大きくなります。つまり、大きな間違いをより厳しく評価するのが特徴です。しかし、この特徴は裏を返すと、極端に外れた値（外れ値）の影響を受けやすいという欠点にもなります。一方、「平均絶対誤差」は、予測値と正解値の差の絶対値を平均したものです。外れ値の影響を受けにくいという点で平均二乗誤差とは対照的です。このように、損失関数にはそれぞれ長所と短所があるため、扱う問題の性質に合わせて適切なものを選ぶ必要があります。適切な損失関数を選ぶことで、コンピュータはより正確な予測を学習できるようになります。

2024.11.26

機械学習