2値分類

記事数:(2)

機械学習

偽陽性と偽陰性:2つの過誤

機械学習を用いて物事を判別する際に、結果の良し悪しを正しく評価することはとても大切です。この評価を適切に行う上で、「偽陽性」と「偽陰性」という二つの考え方は欠かせません。これらは、実際に起きたことと機械が予測したことの食い違いを表すもので、機械学習のモデルの正確さを測る重要な指標となります。 まず、「陽性」と「陰性」について説明します。「陽性」はある出来事が起きると予測することで、「陰性」はその反対に、出来事は起きないと予測することです。例えば、健康診断で病気を検査する場合、「陽性」は病気に罹患していると予測することで、「陰性」は病気に罹患していないと予測することです。 次に、「偽陽性」とは、実際には出来事が起きていないにも関わらず、起きると予測してしまう誤りのことです。健康診断の例で言えば、実際には健康なのに、病気だと誤って診断してしまう場合が「偽陽性」です。偽陽性の結果を受け取ると、必要のない検査や治療を受けてしまったり、精神的な負担を感じてしまったりする可能性があります。 一方、「偽陰性」とは、実際には出来事が起きているにも関わらず、起きないと予測してしまう誤りのことです。健康診断の例で言えば、実際には病気なのに、健康だと誤って診断してしまう場合が「偽陰性」です。偽陰性は、適切な治療の開始を遅らせてしまい、病状を悪化させてしまう危険性があります。 このように、偽陽性と偽陰性はどちらも望ましくない誤りですが、どちらの誤りがより深刻な影響を与えるかは、状況によって異なります。例えば、命に関わる病気の診断では、偽陰性の方が偽陽性よりも深刻な結果をもたらす可能性が高いでしょう。そのため、機械学習モデルを構築する際には、これらの誤りの発生率を慎重に評価し、目的に合わせて適切な調整を行う必要があります。
機械学習

分類:データのラベル分け

仕分けることは、ものを異なる仲間に分けることです。たとえば、机の上にあるものを整理するときに、ペンはペン立てに、本は本棚に、消しゴムは筆箱にと、それぞれの種類に合わせて置き場所を決める作業と似ています。このとき、ペン立てや本棚、筆箱といった置き場所が「ラベル」に当たります。 ラベルは、「いぬ」や「ねこ」といった生き物の名前や、「安全」や「危険」といった状態を表す言葉など、様々なものがあります。大切なのは、これらのラベルが、温度計のように滑らかに変化する値ではなく、血液型のように、A型、B型、O型、AB型といった決まった種類しかない値であるということです。たとえば、温度は摂氏1度、2度と細かく変化しますが、血液型は決まった型の中からどれか1つになります。 仕分けることは、たくさんのものの中から、それらが持つ特徴を見つけて、どのラベルに属するかを判断する作業です。この作業は、今まで見たことのないものに対しても、その特徴から適切なラベルを予測するために行われます。 例えば、迷惑な電子郵便を仕分ける場合を考えてみましょう。迷惑な電子郵便には、特定の言葉が含まれていたり、送信者が不明であったりといった特徴があります。仕分けの仕組みは、たくさんの電子郵便のデータから、迷惑な電子郵便の特徴を学びます。そして、新しい電子郵便が届いたときに、その特徴から迷惑な電子郵便かどうかを判断します。もし迷惑な電子郵便の特徴に合致すれば、「迷惑な電子郵便」というラベルを付けて、通常の受信箱とは別の場所に仕分けられます。 このように、仕分けることは、私たちの暮らしの様々な場面で役立っています。他にも、手書きの文字を認識したり、写真に写っているものが何かを判別したり、様々な用途で活用されています。これらの技術は、大量のデータから特徴を学習し、未知のものに対しても適切に仕分けることで、私たちの生活をより便利で快適なものにしています。