Sensitivity

感度：機械学習における重要指標

検査や診断の性能を測る大切な指標の一つに、感度というものがあります。これは、実際に何らかの状態、例えば病気にかかっている人の中で、検査によって正しくその状態だと判定された人の割合を示すものです。言い換えれば、ある状態が存在している時に、それを正しく見つける確率のことです。例として病気の診断を考えてみましょう。ある病気にかかっている人が100人いたとします。その中で、検査を受けた結果、実際に病気だと正しく診断された人が90人だったとしましょう。この場合、感度は0.9となります。感度は0から1までの値を取り、1に近づくほど検査の性能が高いことを示します。つまり、感度が高いほど、本当に状態がある人をより多く、正しく見つけることができるということです。感度が1に近い、つまり非常に高い検査であっても、全ての人を完璧に見つけることは難しいです。先の例では、病気にかかっている100人のうち、90人は正しく診断されましたが、残りの10人は検査では病気ではないと判定されてしまいました。このように、本当は状態があるのに、検査では見逃されてしまうことを偽陰性と言います。この偽陰性を少なくすることが、病気の早期発見や適切な治療開始に繋がります。一方で、感度だけに注目してしまうと、別の問題が生じる可能性があります。例えば、非常に感度が高い検査であっても、実際には病気にかかっていない人を誤って病気だと判定してしまう、いわゆる偽陽性が多い可能性も考えられます。そのため、感度に加えて、偽陽性の割合を示す特異度も合わせて考えることが大切です。感度と特異度をバランス良く評価することで、より適切な検査方法を選択することに繋がります。

2024.11.27

機械学習

ROC曲線とAUCによるモデル評価

二値分類とは、対象を二つの種類に区分けする作業のことです。例えば、健康診断の結果から、病気に罹患しているかいないかを判断する場合や、メールが迷惑メールかそうでないかを判別する場合などが挙げられます。このような二値分類の精度を測る方法の一つに受信者動作特性曲線、略してROC曲線と呼ばれるものがあります。 ROC曲線は、縦軸に真陽性率、横軸に偽陽性率をとって描かれるグラフです。真陽性率とは、実際に陽性であるものの中から、正しく陽性と予測できた割合のことです。病気の診断で例えるなら、実際に病気に罹患している人の中で、検査によって正しく病気と診断できた人の割合です。これは、感度や再現率とも呼ばれます。一方で、偽陽性率とは、実際は陰性であるものの中から、誤って陽性と予測した割合のことです。病気の診断の例では、実際には健康な人の中で、検査によって誤って病気と診断されてしまった人の割合に当たります。 ROC曲線を描くためには、様々な閾値を用います。閾値とは、陽性と陰性を区別する境界線の値のことです。この閾値を変化させることで、真陽性率と偽陽性率の値が変化し、ROC曲線が描かれます。理想的な分類モデルは、真陽性率が高く、偽陽性率が低い、つまり、病気の人を正しく病気と診断し、健康な人を誤って病気と診断することが少ないモデルです。ROC曲線上で、左上に近いほど理想的なモデルと言えます。 ROC曲線を見ることで、様々な閾値におけるモデルの性能を一度に評価できるため、特定の閾値だけに頼った評価よりも、より多角的で詳細な分析が可能になります。これは、目的に合わせて最適な閾値を選択する際に役立ちます。例えば、病気の早期発見を重視する場合には、多少偽陽性率が高くなっても、真陽性率の高い閾値を選ぶ方が良いでしょう。このように、ROC曲線は二値分類モデルの性能評価において重要な役割を果たします。

2024.11.27

機械学習