機械学習モデル評価

記事数:(3)

機械学習

感度:機械学習における重要指標

検査や診断の性能を測る大切な指標の一つに、感度というものがあります。これは、実際に何らかの状態、例えば病気にかかっている人の中で、検査によって正しくその状態だと判定された人の割合を示すものです。言い換えれば、ある状態が存在している時に、それを正しく見つける確率のことです。 例として病気の診断を考えてみましょう。ある病気にかかっている人が100人いたとします。その中で、検査を受けた結果、実際に病気だと正しく診断された人が90人だったとしましょう。この場合、感度は0.9となります。感度は0から1までの値を取り、1に近づくほど検査の性能が高いことを示します。つまり、感度が高いほど、本当に状態がある人をより多く、正しく見つけることができるということです。 感度が1に近い、つまり非常に高い検査であっても、全ての人を完璧に見つけることは難しいです。先の例では、病気にかかっている100人のうち、90人は正しく診断されましたが、残りの10人は検査では病気ではないと判定されてしまいました。このように、本当は状態があるのに、検査では見逃されてしまうことを偽陰性と言います。この偽陰性を少なくすることが、病気の早期発見や適切な治療開始に繋がります。 一方で、感度だけに注目してしまうと、別の問題が生じる可能性があります。例えば、非常に感度が高い検査であっても、実際には病気にかかっていない人を誤って病気だと判定してしまう、いわゆる偽陽性が多い可能性も考えられます。そのため、感度に加えて、偽陽性の割合を示す特異度も合わせて考えることが大切です。感度と特異度をバランス良く評価することで、より適切な検査方法を選択することに繋がります。
機械学習

説明分散:モデルの性能評価

説明分散とは、統計学や機械学習といった分野で、作成した予測模型がどれほど観測データのばらつき具合を説明できるかを示す指標です。言い換えれば、模型が予想した値が、実際の値のばらつきをどの程度捉えているかを数値で表したものです。この指標は、模型の性能評価によく使われます。 たとえば、株価を予想する模型を作ったとします。株価は毎日変動しますが、この変動の度合いをばらつきと捉えます。もし株価のばらつきが全くないとすれば、株価は毎日同じ値で変動がありません。しかし実際には株価は変動するため、ばらつきが生じます。作った模型が、この株価のばらつきをどれほど説明できるか、を数値化したものが説明分散です。 説明分散の値は0から1の間で表されます。1に近いほど、模型がデータの変動をよく説明できている、つまり性能が良いと判断できます。逆に0に近い場合は、模型がデータの変動をあまり説明できていない、つまり性能が良くないと判断できます。もし説明分散が1だとすれば、模型はデータの変動を完全に説明できており、完璧な予想ができることを意味します。しかし現実のデータでは、説明分散が1になることはほぼありません。 説明分散が高いということは、模型がデータの特徴を良く捉え、正確な予想を行える可能性が高いことを示します。例えば、株価予想模型で説明分散が高い場合、その模型は株価の変動をよく予想できると考えられます。逆に説明分散が低い場合、株価の変動をあまり予想できていないと考えられます。ですから、説明分散は模型の良し悪しを判断する重要な指標の一つと言えるでしょう。
機械学習

精度の正体:機械学習での役割

機械学習という技術において、その良し悪しを見極めるための物差しはたくさんありますが、中でも「精度」は特に大切です。この精度は、ずばり、予測がどれくらい正確かを表す尺度です。作った模型が、どれくらいきちんと目的を達成できているかを判断するのに役立ちます。 例えば、写真を見てそれが何なのかを当てる模型を考えてみましょう。この模型が、写真に写っているものを正しく言い当てられた割合が、まさに精度です。迷惑メールを見分ける模型であれば、きちんと迷惑メールだと見抜けた割合が精度になります。 もう少し具体的に説明すると、この精度は、模型が「これは猫の写真です」と判断した写真のうち、実際に猫が写っている写真の割合です。犬の写真を見て「猫」と判断したり、猫の写真を見て「犬」と判断したりすると、精度は下がります。逆に、猫の写真をきちんと「猫」と判断できれば、精度は高くなります。 精度は、模型の出来栄えを評価する上で基本となる物差しです。そして、模型の改善点を明らかにするためにも欠かせない情報です。精度は分かりやすい指標ですが、状況によっては、他の物差しも合わせて考える必要があります。例えば、病気の診断のように、病気でない人を病気と判断する(偽陽性)よりも、病気の人を病気でないと判断する(偽陰性)方が深刻な場合もあります。このような場合は、単に精度だけで判断するのではなく、他の指標も合わせて考える必要があります。 本記事では、この精度について、その意味や計算の仕方、使う上での注意点などを、より詳しく説明していきます。精度を正しく理解し、活用することで、より良い機械学習模型を作ることができるようになります。