第二種の過誤

記事数:(2)

機械学習

偽陽性と偽陰性:2つの過誤

機械学習を用いて物事を判別する際に、結果の良し悪しを正しく評価することはとても大切です。この評価を適切に行う上で、「偽陽性」と「偽陰性」という二つの考え方は欠かせません。これらは、実際に起きたことと機械が予測したことの食い違いを表すもので、機械学習のモデルの正確さを測る重要な指標となります。 まず、「陽性」と「陰性」について説明します。「陽性」はある出来事が起きると予測することで、「陰性」はその反対に、出来事は起きないと予測することです。例えば、健康診断で病気を検査する場合、「陽性」は病気に罹患していると予測することで、「陰性」は病気に罹患していないと予測することです。 次に、「偽陽性」とは、実際には出来事が起きていないにも関わらず、起きると予測してしまう誤りのことです。健康診断の例で言えば、実際には健康なのに、病気だと誤って診断してしまう場合が「偽陽性」です。偽陽性の結果を受け取ると、必要のない検査や治療を受けてしまったり、精神的な負担を感じてしまったりする可能性があります。 一方、「偽陰性」とは、実際には出来事が起きているにも関わらず、起きないと予測してしまう誤りのことです。健康診断の例で言えば、実際には病気なのに、健康だと誤って診断してしまう場合が「偽陰性」です。偽陰性は、適切な治療の開始を遅らせてしまい、病状を悪化させてしまう危険性があります。 このように、偽陽性と偽陰性はどちらも望ましくない誤りですが、どちらの誤りがより深刻な影響を与えるかは、状況によって異なります。例えば、命に関わる病気の診断では、偽陰性の方が偽陽性よりも深刻な結果をもたらす可能性が高いでしょう。そのため、機械学習モデルを構築する際には、これらの誤りの発生率を慎重に評価し、目的に合わせて適切な調整を行う必要があります。
機械学習

誤りの種類と統計的検定

統計や機械学習の世界では、物事を二つに分ける二値分類という方法がよく使われています。例えば、迷惑メールかどうかを判断したり、病気かどうかを診断したりする時などに活用されています。この二値分類がどれくらい正確かを評価するには、「偽陽性」と「偽陰性」という二つの考え方を知ることが大切です。 偽陽性とは、本当は違うのに、あると判断してしまう間違いのことです。例えば、健康な人を検査した結果、病気だと誤って判断してしまうケースが挙げられます。また、普通のメールを迷惑メールだと間違えて分類してしまうのも偽陽性です。本来は陰性であるべきものが陽性と判定されてしまう誤りなので、不要な心配や手間をかけさせてしまう可能性があります。 一方、偽陰性とは、本当はあるのに、ないと判断してしまう間違いのことです。例えば、病気の人を検査した結果、健康だと誤って判断してしまうケースが挙げられます。また、迷惑メールを普通のメールだと間違えて見逃してしまうのも偽陰性です。本来は陽性であるべきものが陰性と判定されてしまう誤りなので、見逃しによって重大な結果を招く可能性があります。 このように、偽陽性と偽陰性は、どちらも間違った判断ではありますが、その影響は大きく異なります。偽陽性の場合は、必要のない検査や治療を行うことになり、時間や費用などの無駄が生じる可能性があります。一方、偽陰性の場合は、病気の発見や治療の開始が遅れ、病状が悪化したり、適切な対処が遅れたりする危険性があります。迷惑メールの例で言えば、偽陽性は見逃しても大きな影響はありません。しかし、偽陰性は見逃すと重要な情報を見逃すことに繋がりかねません。このように、状況に応じてどちらの誤りがより深刻な影響を与えるかが変わるため、目的に合わせて適切な対策を講じる必要があります。