MAPE:予測精度を測る指標
AIを知りたい
先生、「MAPE」って精度を測る指標の一つですよね?よく耳にするんですが、どういう意味でしょうか?
AIエンジニア
そうだね。MAPEは「平均絶対パーセント誤差」の略で、機械学習モデルの予測精度を評価する指標の一つだよ。それぞれのデータの正解値と予測値の差を正解値で割って、その絶対値の平均をパーセントで表したものなんだ。
AIを知りたい
なるほど。正解値と予測値の差を正解値で割るんですね。でも、なぜ絶対値を取るんですか?
AIエンジニア
いい質問だね。誤差がプラスかマイナスかで相殺されてしまうのを防ぐためだよ。絶対値を取ることで、誤差の大きさを正しく評価できるんだ。
MAPEとは。
人工知能の分野でよく使われる言葉に「平均絶対パーセント誤差」というものがあります。これは、機械学習において、予測した値が実際の値からどれくらいずれているかをパーセントで表したものです。ずれ具合は、本来「予測値から正解値を引いた値」で計算しますが、「正解値から予測値を引いた値」を使っても問題ありません。
はじめに
機械学習は、まるで人間の学習のように、与えられた情報から規則性や傾向を見つけ出す技術です。膨大な資料から法則を学び取ることで、未来に起こる事柄を予想することができるのです。例えば、毎日の気温や湿度、気圧などの情報から明日の天気を予想したり、過去の株価の変動から今後の値動きを予測したり、商品の売れ行きに関する情報から将来の需要を予測したりと、様々な分野で活用されています。
これらの予測がどの程度正確なのかを評価することは、予測モデルの良し悪しを判断し、より良いモデルを作るために非常に重要です。予測の正確さを測る尺度はたくさんありますが、その中で「平均絶対パーセント誤差」、略してMAPEと呼ばれる尺度は、分かりやすく、広く使われているものの一つです。MAPEは、実際の値と予測値の差を実際の値で割って百分率で表し、その平均を求めることで計算されます。
この尺度は、予測の誤差を相対的な大きさで捉えることができるため、異なる規模のデータを比較する際に役立ちます。例えば、1000個売れると予測した商品が実際には900個しか売れなかった場合と、10個売れると予測した商品が実際には9個しか売れなかった場合、どちらも誤差は10個ですが、売れる個数の規模が異なるため、単純な誤差の比較は適切ではありません。MAPEを用いることで、それぞれの予測の誤差を相対的な割合で比較することができ、より適切な評価が可能となります。
今回の記事では、このMAPEについて、その計算方法や使い方、使う際の注意点、そして他の尺度との比較などを詳しく説明します。MAPEの使い方を正しく理解することで、機械学習モデルの性能評価を適切に行い、より精度の高い予測を実現できるようになるでしょう。
用語 | 説明 | 例 |
---|---|---|
機械学習 | データから規則性や傾向を見つける技術 | 天気予報、株価予測、需要予測 |
MAPE (平均絶対パーセント誤差) | 予測の正確さを測る尺度。 実際の値と予測値の差を実際の値で割って百分率で表し、その平均を求める。 |
予測:1000個、実際:900個 予測:10個、実際:9個 |
MAPEとは
平均絶対パーセント誤差(略してMAPE)は、予測の正確さをパーセントで示す尺度です。たとえば、来月の商品の売り上げ個数や、一週間後の株価など、将来の値を予想することは、ビジネスにおいてとても大切です。しかし、どんなに優れた予測モデルを使っても、完全に正確な予測をすることはほぼ不可能です。そこで、予測の正確さを測るための様々な方法が考えられており、MAPEもその一つです。
MAPEは、実際の値と予測値の差を、実際の値と比べてどれくらいの割合になるかを計算します。たとえば、実際の売り上げ個数が100個で、予測が90個だった場合、その差は10個です。この10個を実際の値である100個で割ると、0.1になります。これは、予測が実際の値から10%ずれていることを意味します。このようにして、個々の予測についてずれの割合を計算し、その平均を求めることで、全体の予測精度を評価します。最後に、この平均値に100をかけてパーセント表示にします。
MAPEはパーセントで表されるため、異なる種類のデータ、例えば商品の売り上げ個数と株価を比較する場合でも、容易に理解し比較することができます。また、計算方法も比較的簡単であるため、広く使われています。
しかし、MAPEには注意点もあります。実際の値がゼロに近い場合、計算結果が非常に大きな値になることがあります。例えば、実際の売り上げ個数が1個で、予測が0個だった場合、ずれの割合は1となり、MAPEは100%になってしまいます。このような場合、MAPEは予測精度を正しく反映していない可能性があります。そのため、実際の値がゼロに近いデータにMAPEを適用する際には、注意が必要です。
まとめると、MAPEは予測精度を評価する上で便利な指標ですが、その特性を理解した上で適切に利用することが重要です。
項目 | 説明 |
---|---|
定義 | 予測の正確さをパーセントで示す尺度。実際の値と予測値の差の割合の平均をパーセント表示したもの。 |
計算方法 | 1. 実際の値と予測値の差を計算 2. 差を実際の値で割る 3. 全ての予測について2.を行い、平均を求める 4. 平均値に100をかけてパーセント表示 |
メリット | ・パーセント表示のため、異なる種類のデータを比較しやすい ・計算が比較的簡単 |
デメリット/注意点 | 実際の値がゼロに近い場合、計算結果が非常に大きな値になることがあるため、予測精度を正しく反映していない可能性がある。 |
MAPEの計算方法
平均絶対誤差率(MAPE)は、予測の精度を測る指標の一つです。その計算方法は、いくつかの段階に分かれています。まず、個々のデータについて、実際の値と予測値の差を計算します。この時、差の正負は関係ないので、絶対値を用います。例えば、実際の値が10で、予測値が8の場合、差の絶対値は|10 – 8| = 2 となります。
次に、それぞれのデータについて、先ほど計算した差の絶対値を、実際の値で割ります。これは、誤差の大きさを実際の値と比較することで、相対的な誤差の大きさを示すためです。先ほどの例では、2 / 10 = 0.2 となります。この計算を全てのデータ点について行います。
全てのデータ点について相対的な誤差の大きさが計算できたら、それらの平均値を求めます。例えば、3つのデータ点があり、それぞれの相対的な誤差の大きさが0.2、0.3、0.1だった場合、平均値は (0.2 + 0.3 + 0.1) / 3 = 0.2 となります。
最後に、計算された平均値に100を掛けて、パーセント表示にします。先ほどの例では、0.2 × 100 = 20% となります。つまり、この場合のMAPEは20%となります。
ただし、実際の値が0の場合、0で割ることになってしまい、計算ができません。このような場合は、0の値を除外して計算するか、あるいは、MAPE以外の指標を検討する必要があります。加重平均絶対誤差率(WMAPE)のような代替指標も存在し、状況に応じて使い分けることが重要です。
MAPEの利点と欠点
平均絶対誤差率(MAPE)は、予測の正確さを評価する指標として、広く用いられています。その大きな利点は、パーセント表示で結果が示されるため、理解しやすいという点です。例えば、MAPEが10%であれば、予測値は平均して実際の値から10%ずれているという意味になり、専門知識を持たない人でも容易に解釈できます。また、異なる規模のデータ同士を比較する際にも、パーセント表示であるMAPEは役立ちます。例えば、ある製品の売上予測と、別の製品の売上予測の精度を比較する場合、それぞれの売上の規模が大きく異なっていても、MAPEを用いれば相対的な予測精度を直接比較できます。
しかし、MAPEにはいくつかの欠点も存在します。まず、実際の値がゼロに近い場合、MAPEは非常に大きな値になる、あるいは計算できないという問題があります。これは、ゼロで割ることができないためです。例えば、実際の売上数量がゼロに近い場合、わずかな予測誤差でもMAPEは非常に大きな値となり、予測モデルの精度を正しく評価できません。また、MAPEは過大予測と過小予測に対して非対称なペナルティを与えます。具体的には、実際の値よりも予測値が大きい場合、つまり過大予測の場合の方が、同じ大きさの誤差であってもMAPEの値は大きくなります。例えば、実際の値が10で予測値が20の場合のMAPEは100%ですが、実際の値が10で予測値が0の場合のMAPEも100%です。しかし、ビジネスの状況によっては、過大予測と過小予測で損失が異なる場合があります。在庫管理の場合、過大予測は在庫の増加につながり保管コストがかかりますが、過小予測は販売機会の損失につながるため、過小予測の方が損失が大きい可能性があります。このような状況では、MAPEは適切な指標とは言えません。そのため、MAPEを使用する際は、データの特性を十分に理解し、MAPEの利点と欠点を踏まえた上で、適切に解釈する必要があります。場合によっては、他の指標と組み合わせて使用することで、より正確な評価が可能になります。
項目 | 説明 |
---|---|
利点 |
|
欠点 |
|
注意点 | データの特性を理解し、利点と欠点を踏まえて適切に解釈する必要がある。場合によっては他の指標と組み合わせて使用。 |
他の指標との比較
予測の良し悪しを測る尺度は、MAPE以外にもたくさんあります。それぞれの尺度には、向き不向きや得意不得意があるので、データに合わせてどれを使うか、きちんと選ぶことが大切です。よく使われるものとして、RMSE(二乗平均平方根誤差)とMAE(平均絶対誤差)があります。
RMSEは、まず予測と実際の値の差(誤差)をそれぞれ二乗します。次に、それらの平均を出し、最後にその平方根を求めます。ちょっと計算が複雑ですが、誤差が大きいほど、その二乗はさらに大きくなるので、大きな誤差をより厳しく評価する特徴があります。一方で、極端に大きな値や小さな値(外れ値)があると、RMSEの結果に大きく影響してしまう欠点も持っています。
MAEの計算はRMSEよりシンプルです。予測と実際の値の差(誤差)をそれぞれ絶対値に変換し、それらの平均を求めます。つまり、誤差の大きさだけを評価します。外れ値の影響を受けにくいという長所がありますが、誤差が大きくても小さくても、その影響度は同じなので、大きな誤差を厳しく評価したい場合には不向きです。
MAPEは、誤差を実際の値で割って百分率で表すので、結果が分かりやすいという利点があります。しかし、実際の値がゼロに近い場合や、外れ値が多いデータに使うと、結果が不安定になったり、正しく評価できないことがあります。それぞれの尺度の長所と短所を理解して、データの性質に合った尺度を選ぶことが、正確な評価をするために不可欠です。
尺度 | 計算方法 | 長所 | 短所 |
---|---|---|---|
RMSE (二乗平均平方根誤差) | 誤差の二乗の平均の平方根 | 大きな誤差を厳しく評価 | 外れ値の影響を受けやすい |
MAE (平均絶対誤差) | 誤差の絶対値の平均 | 外れ値の影響を受けにくい | 大きな誤差を厳しく評価できない |
MAPE | 誤差を実際の値で割って百分率で表す | 結果が分かりやすい | 実際の値がゼロに近い場合や外れ値が多いデータに使うと不安定 |
まとめ
予測の正確さを測る尺度として、平均絶対誤差率(MAPE)は広く使われています。MAPEは、予測値と実際の値の差の絶対値を実際の値で割って百分率で表したもので、値が小さいほど予測の精度が高いことを示します。この尺度は、ビジネスの現場で分かりやすく解釈できるため、重宝されています。
しかし、MAPEにはいくつか注意点があります。まず、実際の値がゼロに近い場合、MAPEの値が非常に大きくなる、あるいは計算できないという問題があります。例えば、ある商品の売上がゼロに近い場合、わずかな予測誤差でもMAPEは非常に大きな値になり、予測モデルの正確さを正しく反映しない可能性があります。また、外れ値、つまり極端に大きな値や小さな値が含まれるデータの場合も、MAPEは影響を受けやすいです。外れ値によってMAPEが歪められ、予測精度の評価が不正確になる可能性があります。
さらに、MAPEは過小予測よりも過大予測に対してより敏感です。例えば、実際の値が10で予測値が8の場合のMAPEは20%ですが、実際の値が10で予測値が12の場合のMAPEも20%です。しかし、ビジネスの状況によっては、過小予測と過大予測の影響は異なる場合があります。在庫管理の場合、過小予測は機会損失につながり、過大予測は在庫の増加につながります。このような状況では、MAPEだけでは最適な判断材料とは言えません。
MAPEだけで予測モデルの良し悪しを判断するのではなく、他の指標と合わせて使うことが大切です。例えば、平均二乗誤差(MSE)や平均絶対誤差(MAE)などの指標と比較することで、より多角的に予測精度を評価できます。それぞれの指標の特性を理解し、目的に合わせて適切な指標を選択、あるいは組み合わせて使うことで、より正確で信頼性の高い評価ができます。MAPEは便利な指標ですが、万能ではありません。データの特性やビジネスの状況を考慮し、適切に利用することが重要です。
尺度 | 説明 | 利点 | 欠点 |
---|---|---|---|
平均絶対誤差率 (MAPE) | 予測値と実際の値の差の絶対値を実際の値で割って百分率で表したもの | 分かりやすく解釈できる |
|
平均二乗誤差 (MSE) | 予測値と実際の値の差の二乗の平均 | – | – |
平均絶対誤差 (MAE) | 予測値と実際の値の差の絶対値の平均 | – | – |