機械学習 正解率:機械学習モデルの精度を測る
正解率とは、機械学習の出来栄えを測る物差しのひとつで、モデルがどれほど正確に予測できているかを示す数値です。分かりやすく言うと、たくさんのデータの中で、正しく見分けられたデータの割合のことです。たとえば、全部で100個のデータがあったとして、そのうち80個を正しく分類できたなら、正解率は80%になります。
この正解率という尺度は、見た目にも分かりやすく、理解しやすいという長所があります。そのため、機械学習モデルの良し悪しを判断する際の基本的な指標として、広く使われています。まるでテストの点数のように、ぱっと見てどれくらい正解しているかが分かるので、多くの人が利用しています。
しかし、データの偏り、つまり特定の種類のデータばかりが多いといった状況では、正解率だけで判断するのは危険です。たとえば、ある病気の検査で、99%の人が健康で1%の人だけが病気だとします。この場合、常に「健康」と答えるだけの単純なモデルでも、正解率は99%になってしまいます。しかし、このモデルは病気の人を一人も見つけることができないため、役に立たないモデルと言えます。このように、データのバランスが悪い場合は、正解率が高くても、実際には良いモデルとは言えないことがあります。
そのため、正解率だけでなく、他の指標も組み合わせてモデルを評価することが大切です。正解率は、モデルの性能を大まかに把握するには便利ですが、それだけで全てを判断せず、様々な角度から見て、総合的に判断する必要があるのです。
