予測精度を測る指標たち
機械学習の世界では、学習した模型の良し悪しを測る物差しがいくつかあります。特に、二つの答えからどちらかを選ぶ問題では、正解率、適合率、再現率、そしてF値といった物差しがよく使われます。これらはそれぞれ違った角度から模型の出来栄えを調べており、全体的な良し悪しを判断する上で大切な役割を担っています。この記事では、これらの物差しについて詳しく説明し、それぞれの意味やどのように使い分けるのかを深く理解することを目指します。
まず、正解率は、全体の中でどれだけの割合で正解できたかを示す最も基本的な物差しです。しかし、正解と不正解の数が大きく偏っている場合には、正解率だけでは模型の真の実力を測れないことがあります。例えば、めったに起こらない病気の診断では、常に「病気ではない」と答える模型でも高い正解率が出てしまう可能性があります。そこで、適合率が登場します。適合率は、模型が「病気である」と判断した中で、実際に病気だった人の割合を示します。これは、誤った診断を減らす上で重要な指標となります。一方、再現率は、実際に病気だった人の中で、模型が正しく「病気である」と診断できた人の割合を示します。これは、見落としを少なくする上で重要な指標となります。
適合率と再現率は、トレードオフの関係にあることが多く、どちらかを高くしようとすると、もう一方が低くなってしまう傾向があります。例えば、病気の診断で、少しでも疑わしければ「病気である」と判断する模型は、再現率は高くなりますが、適合率は低くなります。逆に、確実な場合のみ「病気である」と判断する模型は、適合率は高くなりますが、再現率は低くなります。そこで、適合率と再現率のバランスを考えた指標がF値です。F値は、適合率と再現率の調和平均であり、両方の指標を同時に高くすることを目指す際に役立ちます。これらの指標の特性を理解することで、より適切な模型選びや改良に繋げることが可能になります。それぞれの指標が持つ意味合いを理解し、状況に応じて適切な指標を用いることで、より精度の高い機械学習模型を構築することができます。