ROC曲線とAUCによるモデル評価
二値分類とは、対象を二つの種類に区分けする作業のことです。例えば、健康診断の結果から、病気に罹患しているかいないかを判断する場合や、メールが迷惑メールかそうでないかを判別する場合などが挙げられます。このような二値分類の精度を測る方法の一つに受信者動作特性曲線、略してROC曲線と呼ばれるものがあります。
ROC曲線は、縦軸に真陽性率、横軸に偽陽性率をとって描かれるグラフです。真陽性率とは、実際に陽性であるものの中から、正しく陽性と予測できた割合のことです。病気の診断で例えるなら、実際に病気に罹患している人の中で、検査によって正しく病気と診断できた人の割合です。これは、感度や再現率とも呼ばれます。一方で、偽陽性率とは、実際は陰性であるものの中から、誤って陽性と予測した割合のことです。病気の診断の例では、実際には健康な人の中で、検査によって誤って病気と診断されてしまった人の割合に当たります。
ROC曲線を描くためには、様々な閾値を用います。閾値とは、陽性と陰性を区別する境界線の値のことです。この閾値を変化させることで、真陽性率と偽陽性率の値が変化し、ROC曲線が描かれます。理想的な分類モデルは、真陽性率が高く、偽陽性率が低い、つまり、病気の人を正しく病気と診断し、健康な人を誤って病気と診断することが少ないモデルです。ROC曲線上で、左上に近いほど理想的なモデルと言えます。
ROC曲線を見ることで、様々な閾値におけるモデルの性能を一度に評価できるため、特定の閾値だけに頼った評価よりも、より多角的で詳細な分析が可能になります。これは、目的に合わせて最適な閾値を選択する際に役立ちます。例えば、病気の早期発見を重視する場合には、多少偽陽性率が高くなっても、真陽性率の高い閾値を選ぶ方が良いでしょう。このように、ROC曲線は二値分類モデルの性能評価において重要な役割を果たします。