PR-AUC

記事数:(2)

機械学習

PR曲線下面積:精度と再現率の調和

機械学習のモデルを評価するには、様々な尺度を組み合わせて考えることが大切です。一つの尺度だけで判断しようとすると、モデルの真の実力を捉えきれないことがあります。よく使われる尺度に『精度』と『再現率』があります。『精度』は、正解と予測したデータのうち、実際に正解だったデータの割合です。例えば、10個のデータの中で3個を正解と予測し、そのうち2個が実際に正解だった場合、精度は2/3となります。一方、『再現率』は、実際に正解であるデータのうち、どれだけの割合を正解と予測できたかを表します。同じ例で、実際に正解のデータが5個あったとすると、再現率は2/5となります。 一見するとどちらも高ければ高いほど良いように思えますが、実際にはこの二つの尺度はトレードオフの関係にあることがよくあります。つまり、精度を高くしようとすると再現率が低くなり、逆に再現率を高くしようとすると精度が低くなるというジレンマが生じます。例えば、病気の診断を想像してみましょう。あらゆる可能性を考慮して、少しでも疑わしい人は全員病気と診断すれば(再現率重視)、病気の人を見逃す可能性は低くなります。しかし、健康な人も病気と診断されてしまう(精度低下)可能性が高くなります。反対に、検査結果が非常に明確な人だけを病気と診断すれば(精度重視)、健康な人を誤って病気と診断する可能性は低くなりますが、病気の人を見逃してしまう(再現率低下)可能性が高くなります。このように、精度と再現率はどちらか一方を優先するのではなく、バランスをとることが重要です。そして、このバランスを総合的に評価する指標の一つとして、PR-AUCと呼ばれるものがあります。PR-AUCは、様々な精度と再現率の組み合わせをグラフ化したときの面積で、値が大きいほどバランスが良いモデルと言えます。
機械学習

予測精度を測る指標:AP

「平均精度」とは、検索や順位付けの正確さを測るための重要な尺度です。よく「AP」と略されます。機械学習の分野、特に情報検索や物体検出といった作業で広く用いられています。 普通の精度は、ある基準点における予測の正しさを示すものですが、平均精度は、様々な基準点における精度を平均した値です。つまり、順位付け全体を評価できるのです。 例えば、検索結果で上位に表示されたものが、どれだけ探し求めていたものに近いのかを測るのに役立ちます。また、画像の中から探し出す物体検出では、見つけ出したものがどれだけ正確に目的のものを捉えているかを測る際にも使われます。 平均精度は、一つの基準点だけに頼らないため、様々な状況でのモデルの性能をより深く理解するのに役立ちます。これは、実際に使う場面ではとても大切なことです。なぜなら、基準点の設定は作業や状況によって変わるからです。 例えば、病気の診断では、病気の可能性が少しでもあれば精密検査が必要なので、基準点を低く設定します。一方で、スパムメールの検出では、普通のメールを間違ってスパムと判断すると困るので、基準点を高く設定します。このように、状況に応じて適切な基準点は変化します。 平均精度は、このような様々な基準点での精度を平均することで、基準点の設定に左右されない、より確実で信頼できる評価尺度となるのです。普通の精度よりも、様々な状況におけるモデルの性能を総合的に評価できるため、実用的な場面でより役立つ指標と言えるでしょう。