ROC曲線とAUCによるモデル評価
二値分類問題を扱う際には、モデルの性能を測るための方法が必要です。例えば、病気の有無や商品の購入見込みなど、二つの可能性の中からどちらかを予測する状況を想像してみてください。このような場面で活躍するのが「受信者動作特性曲線」、略してROC曲線です。ROC曲線は、グラフを用いてモデルの性能を視覚的に評価することを可能にします。
この曲線は、縦軸と横軸にそれぞれ重要な指標を配置して描かれます。縦軸には真陽性率、横軸には偽陽性率をとります。真陽性率とは、実際に陽性であるデータを正しく陽性と予測できた割合のことです。例えば、実際に病気である人を正しく病気と診断できた割合がこれにあたります。一方、偽陽性率とは、実際には陰性であるデータを誤って陽性と予測してしまった割合のことです。例えば、健康な人を誤って病気と診断してしまう割合です。
ROC曲線は、様々な閾値における真陽性率と偽陽性率の組み合わせをプロットすることで描かれます。閾値とは、陽性と陰性を分ける境目となる値のことです。この閾値を変化させることで、真陽性率と偽陽性率も変化します。理想的なモデルは、真陽性率が高く、かつ偽陽性率が低いモデルです。つまり、ROC曲線においては、左上に近いほど優れた性能を示すと言えます。
ROC曲線の下部の面積(AUC)も重要な指標です。AUCは、0から1までの値を取り、1に近いほどモデルの性能が良いことを示します。AUCが0.5の場合は、ランダムな分類と変わりません。つまり、ROC曲線とAUCを用いることで、モデルの性能を視覚的にそして数値的に評価することができるのです。