マクロF1値:多クラス分類の評価指標
複数の種類に分ける作業で、機械学習の成果を測る物差しの一つに、マクロF1値というものがあります。これは、例えば、写真を見てそれが猫か犬か人間かを当てるような問題、迷惑メールを見分ける、お客さんをグループに分けるといった時に役立ちます。
特に、三つ以上の種類に分ける場合、それぞれの種類の正解率をまとめて評価する必要があります。このマクロF1値は、まさにそのための物差しです。それぞれの種類の正解率を測るF1値というものをまず計算し、それらの平均値を算出することで、全体的な性能を測ります。
この方法の利点は、データの偏りに左右されにくいことです。つまり、ある種類のデータが非常に多くても、その種類の正解率だけが全体の評価に過剰な影響を与えることはありません。例えば、犬の写真が大量にあって、猫や人間のデータが少ない場合でも、猫や人間の認識精度が低くても、犬の認識精度が高ければ全体の評価が高くなってしまう、ということが起きにくくなります。
それぞれの種類の正解率を平等に評価できるため、データの数が種類によって大きく異なる場合でも、信頼できる評価結果を得られます。このことから、マクロF1値は、現実世界の様々な問題に適用できる、とても便利な物差しと言えるでしょう。