適合率:機械学習モデルの精度評価
機械学習の分野では、作った模型の良し悪しを測る物差しがいくつかあります。その中で、「適合率」は特に重要な指標の一つです。適合率とは、簡単に言うと、模型が「正しい」と判断したものの中で、実際にどれだけが本当に正しかったのかを示す割合のことです。
例として、迷惑メールの自動仕分け機能を考えてみましょう。この機能は、受信したメールを普通のメールと迷惑メールに自動で分けます。この時、迷惑メールだと仕分けされたメールの中には、本当は普通のメールが混ざっているかもしれません。適合率は、迷惑メールだと仕分けされたメール全体の中で、実際に迷惑メールだったメールの割合を表します。もし、100通のメールが迷惑メールだと仕分けされ、そのうち80通が本当に迷惑メールだった場合、適合率は80%、つまり0.8となります。
適合率の値は、0から1の間で表されます。1に近づくほど、模型の判断の正確さが高くなります。もし適合率が1だった場合は、模型が「正しい」と判断したものは全て実際に正しいということになります。反対に、適合率が0に近い場合は、模型が「正しい」と判断したものの多くが実際には間違っているということになり、模型の精度が低いことを示します。
適合率は、偽陽性、つまり間違って「正しい」と判断してしまうことを抑える際に重要となります。迷惑メールの例で言えば、重要なメールを誤って迷惑メールとして処理してしまうことを防ぐために、高い適合率が求められます。ただし、適合率だけを見て模型の性能を判断するのは危険です。他の指標と合わせて総合的に判断する必要があります。例えば、本当に迷惑メールであるにもかかわらず、普通のメールだと判断してしまう場合も考慮に入れる必要があります。このような、見落としを少なくするためには、また別の指標を用いて評価する必要があります。