ROC分析

記事数:(1)

機械学習

ROC曲線:モデル評価の指標

「受信者動作特性曲線」と呼ばれるROC曲線は、二つの状態に分ける問題において、予測モデルの良し悪しを判断する際に用いられる図です。この図は、様々な判定の基準となる値における真陽性率と偽陽性率を点で示し、それらを線でつないで曲線を描いたものです。 真陽性率とは、実際に陽性であるものを正しく陽性と予測できた割合のことです。例えば、病気の人を正しく病気と診断できた割合です。一方、偽陽性率とは、実際は陰性であるものを誤って陽性と予測した割合のことです。例えば、健康な人を誤って病気と診断してしまった割合です。判定の基準となる値を「閾値」と言います。この閾値を変えることで、真陽性率と偽陽性率の値も変化します。ROC曲線はこの閾値の変化に伴う真陽性率と偽陽性率の変化を視覚的に示してくれます。 理想的な予測モデルは、真陽性率は100%で、偽陽性率は0%になります。これは、全ての場合において完全に正しい予測ができている状態です。しかし、現実の予測モデルでは、真陽性率を高めようとすると偽陽性率も高くなり、逆に偽陽性率を低めようとすると真陽性率も低くなるという、いわば「あちらを立てればこちらが立たず」の関係があります。ROC曲線はこの関係性を視覚的に表すことで、予測モデルの性能を様々な角度から評価することを可能にします。 例えば、病気の診断においては、病気を正しく見つけることも大切ですが、健康な人を誤って病気と診断することも大きな問題です。ROC曲線を使うことで、これらのバランスを考えながら、状況に合わせた最適な閾値を決めることができます。閾値を高く設定すれば、健康な人を病気と診断する可能性は低くなりますが、病気の人を見逃す可能性が高くなります。逆に、閾値を低く設定すれば、病気の人を見逃す可能性は低くなりますが、健康な人を病気と診断する可能性が高くなります。ROC曲線は、このようなトレードオフを理解し最適な閾値を選択する上で非常に役立ちます。