Ｆ１スコア：機械学習モデルの評価指標

機械学習

2024.11.26

Ｆ１スコア：機械学習モデルの評価指標

Ｆ１スコア：機械学習モデルの評価指標

AIを知りたい

先生、「F1スコア」って、何ですか？

AIエンジニア

F1スコアは、機械学習モデルの性能を測るためのものだよ。正解をどれだけ正しく見つけられたか（適合率）と、本来見つけるべき正解のうち、どれだけ見つけられたか（再現率）の、両方を考慮した値なんだ。

AIを知りたい

適合率と再現率、両方大事なんですね。F1スコアの値はどういう意味を持つのですか？

AIエンジニア

F1スコアは0から1までの値を取り、1に近いほど良いモデルと言える。1に近い値は、適合率と再現率の両方が高い、バランスの取れた良いモデルであることを示しているんだ。

F1スコアとは。

人工知能の分野でよく使われる「F1スコア」という用語について説明します。F1スコアは、統計学や機械学習で使われるF値というものの範囲内で、1.0に近いほど良い値とされています。1.0に近いということは、正解を見つける力（適合率）と、本来見つけるべき正解を漏れなく見つける力（再現率）の両方が、できる限り高い状態にあることを示しています。つまり、F1スコアが高いほど、無駄なくバランスよく学習した機械学習モデルだと言えるのです。

Ｆ１スコアとは

「Ｆ１スコア」とは、機械学習の分野で使われる、分類モデルの良し悪しを測るための重要な指標です。この数値は、０から１までの間の値を取り、１に近づくほど、そのモデルの性能が高いことを示します。完全に正しい予測をする理想的なモデルでは１となり、反対に全く予測できないモデルでは０になります。

Ｆ１スコアを理解するためには、「適合率」と「再現率」という二つの概念を知る必要があります。適合率とは、モデルが「正しい」と判断したものの中で、実際にどれだけが正しかったのかを表す割合です。例えば、あるモデルが１０個のデータに対して「正しい」と予測し、そのうち８個が実際に正しかった場合、適合率は８割となります。一方、再現率とは、実際に「正しい」データ全体の中で、モデルがどれだけの割合を「正しい」と予測できたのかを表す割合です。例えば、実際に正しいデータが全部で２０個あり、モデルがそのうち１０個を「正しい」と予測できた場合、再現率は５割となります。

Ｆ１スコアは、この適合率と再現率の両方を考慮した指標です。なぜなら、高い適合率だけ、あるいは高い再現率だけを追求すると、モデルの性能に偏りが生じてしまうからです。例えば、適合率だけを重視しようとすると、モデルは自信のあるものだけを「正しい」と予測するようになり、結果として多くの正しいデータを見逃してしまう可能性があります。逆に、再現率だけを重視しようとすると、モデルは少しでも可能性のあるものを全て「正しい」と予測するようになり、結果として多くの誤った予測をしてしまう可能性があります。Ｆ１スコアは、適合率と再現率の調和平均を取ることで、これらのバランスを保ち、より実用的な評価を実現しています。そのため、Ｆ１スコアは、様々な分野での分類問題において、モデルの性能を測るための指標として広く活用されています。

指標	説明	例
F1スコア	分類モデルの性能を測る指標 (0~1)。1に近いほど性能が高い。適合率と再現率の調和平均。	–
適合率	モデルが「正しい」と判断したもののうち、実際に正しいものの割合。	予測10個中8個正解 → 適合率80%
再現率	実際に正しいデータ全体の中で、モデルが「正しい」と予測できた割合。	正解20個中10個を予測 → 再現率50%

適合率と再現率

物事を正しく見分ける能力を測るには、適合率と再現率という二つの考え方を使う必要があります。この二つを理解することで、Ｆ１スコアの意味もより深く理解できるようになります。

まず、適合率について説明します。適合率とは、ある検査や判定で「陽性（該当する）」と判断されたもののうち、実際に陽性であるものの割合を示します。例えば、ある病気の検査で陽性と判定された人の集団を考えます。この集団の中で、本当にその病気を患っている人の割合が適合率です。適合率が高いほど、陽性と判定された場合に実際に陽性である可能性が高くなります。言い換えれば、誤って陽性と判断する「空振り」が少ないことを示します。しかし、適合率だけでは、本当に陽性であるものを見逃している可能性については分かりません。

次に、再現率について説明します。再現率は、実際に陽性であるもののうち、検査や判定で正しく陽性と判定できたものの割合を示します。先ほどの病気の検査の例で言えば、実際に病気を患っている人の集団の中で、検査によって正しく陽性と判定された人の割合が再現率です。再現率が高いほど、見逃しや取りこぼしが少ないことを意味します。つまり、本当に陽性であるものを高い確率で見つけることができます。しかし、再現率だけでは、陽性ではないものまで陽性と判定してしまう可能性については分かりません。

このように、適合率と再現率はそれぞれ異なる側面から判定の正確さを評価する指標です。病気の診断に限らず、情報検索や製品の欠陥検査など、様々な場面で活用されています。Ｆ１スコアは、この適合率と再現率を組み合わせた指標であり、両者のバランスを考慮した評価を可能にします。

指標	意味	長所	短所	例（病気の検査）
適合率	陽性と判定されたもののうち、実際に陽性であるものの割合	空振りが少ない	真陽性を見逃す可能性がある	陽性と判定された人のうち、実際に病気を患っている人の割合
再現率	実際に陽性であるもののうち、正しく陽性と判定できたものの割合	見逃し、取りこぼしが少ない	偽陽性の可能性がある	実際に病気を患っている人のうち、検査で陽性と判定された人の割合

調和平均の重要性

うまく調整された機械学習の模型を作ることは、まるで職人が精密な時計の部品を組み立てるような作業です。部品の一つ一つが正確に機能しなければ、時計全体が役に立たないように、機械学習の模型でも、様々な要素がバランスよく働く必要があります。そのバランスを測る重要な指標の一つが「調和平均」です。

調和平均は、ある二つの値の関係性を示す際に、低い方の値の影響をより強く受けるという特徴を持っています。これは、機械学習の模型を評価する上で非常に重要な意味を持ちます。例えば、ある模型がどれくらい正確に目的のものを識別できるかを示す「適合率」と、実際にどれだけの目的のものを漏れなく識別できたかを示す「再現率」を考えてみましょう。もし、適合率が非常に高くても、再現率が極端に低い場合、算術平均を用いると比較的高く評価されてしまうことがあります。しかし、実際には多くの目的のものが識別できていないため、この模型は実用的とは言えません。ここで調和平均を用いると、低い再現率が全体の結果に大きく影響するため、模型の真の実力をより正確に反映した評価を得ることができます。

例を挙げて考えてみましょう。病気の診断を行う機械学習の模型があるとします。この模型の適合率が99%と非常に高い一方で、再現率が10%と低いとします。つまり、診断した結果が陽性だった場合、99%の確率で実際に病気であると言える一方で、実際に病気である人のうち、10%しか陽性と診断できないということです。算術平均では(99+10)/2 = 54.5%と比較的高い値になりますが、実際には多くの患者が見逃されてしまうため、この模型は信頼できません。調和平均では、低い再現率の影響を強く受け、全体のスコアは大きく下がります。これは、病気の診断においては、見逃しを少なくすることが非常に重要であるため、妥当な結果と言えます。このように、調和平均は、機械学習の模型評価において、全体的な性能のバランスを正しく捉えるために不可欠な道具なのです。

指標	説明	機械学習における重要性
調和平均	低い値の影響を強く受ける平均。	機械学習モデルの評価において、全体的な性能のバランスを正しく捉えるために不可欠。
適合率 (Precision)	予測が正であると判断されたもののうち、実際に正であったものの割合。	モデルがどれくらい正確に目的のものを識別できるかを示す。
再現率 (Recall)	実際に正であるもののうち、正であると予測されたものの割合。	実際にどれだけの目的のものを漏れなく識別できたかを示す。
算術平均	一般的な平均。すべての値を均等に扱う。	機械学習モデルの評価において、調和平均と比較すると、低い値の影響を軽視するため、真の実力を反映しない場合がある。

Ｆ１スコアの活用例

Ｆ１スコアは、精度と再現率の調和平均であり、様々な分野で活用されています。具体例をいくつか見ていきましょう。

まず、医療の分野では、病気の診断補助を行うシステムの性能評価に用いられます。例えば、ある特定の病気の診断を想定してみましょう。診断システムが「病気である」と判断した人が実際に病気であった割合を「精度」と言います。一方、実際に病気である人の中で、システムが正しく「病気である」と判断できた人の割合を「再現率」と言います。Ｆ１スコアは、この精度と再現率の両方を考慮するため、診断システムの性能を総合的に判断するのに役立ちます。特に、患者数が少ない希少な病気の場合、単純な正答率では診断システムの性能を正しく評価することが難しいです。このような場合、Ｆ１スコアは、少ないデータでも診断システムの真の性能をより正確に反映できるため、非常に有用です。

次に、情報検索の分野では、検索エンジンの性能評価に用いられます。利用者が検索したキーワードに対して、検索エンジンが提示した結果のうち、実際に利用者が求めていた情報が含まれる割合が精度に対応します。また、利用者が求めていた全ての情報の中で、検索エンジンが正しく提示できた割合が再現率に対応します。Ｆ１スコアを用いることで、検索エンジンの精度と網羅性のバランスを評価することができます。

さらに、迷惑メールの判別や、クレジットカードの不正利用の検知など、様々な分類問題にも応用されています。例えば、迷惑メールの判別システムでは、迷惑メールを正しく迷惑メールと判別できた割合が精度に、実際に送られてきた迷惑メール全体の中で、システムが正しく判別できた割合が再現率に対応します。Ｆ１スコアは、これらの割合を考慮することで、システムの性能を多角的に評価することを可能にします。このように、Ｆ１スコアは、データの偏りに関わらず、様々な状況で分類モデルの性能を適切に評価するための重要な指標となっています。

分野	説明	精度	再現率
医療	病気の診断補助システムの性能評価	診断システムが「病気である」と判断した人が実際に病気であった割合	実際に病気である人の中で、システムが正しく「病気である」と判断できた人の割合
情報検索	検索エンジンの性能評価	検索エンジンが提示した結果のうち、実際に利用者が求めていた情報が含まれる割合	利用者が求めていた全ての情報の中で、検索エンジンが正しく提示できた割合
迷惑メール判別	迷惑メール判別システムの性能評価	迷惑メールを正しく迷惑メールと判別できた割合	実際に送られてきた迷惑メール全体の中で、システムが正しく判別できた割合

Ｆ１スコアの限界

Ｆ１スコアは、機械学習モデルの性能を測る指標として広く使われていますが、完璧な指標ではありません。いくつかの欠点があり、それらを理解した上で使う必要があります。

まず、Ｆ１スコアは偽陰性と偽陽性の違いを考慮に入れていません。偽陰性とは、実際には陽性であるものを陰性と判定してしまう誤りで、偽陽性とは、実際には陰性であるものを陽性と判定してしまう誤りです。病気の診断を例に考えてみましょう。ある人が実際に病気にかかっているのに、検査で陰性と出てしまうのは偽陰性です。逆に、健康な人が検査で陽性と出てしまうのは偽陽性です。明らかに、病気の診断においては、偽陰性の方が偽陽性よりも深刻な結果をもたらす可能性が高いでしょう。偽陰性によって適切な治療の開始が遅れ、病状が悪化する恐れがあるからです。一方、偽陽性の場合は追加の検査で真の状態が明らかになることが多いです。Ｆ１スコアは偽陰性と偽陽性の両方を同じ重みで扱うため、このような状況では適切な評価とは言えません。病気の診断のようなケースでは、偽陰性をより重視した指標を用いる、あるいは偽陰性と偽陽性のコストを別々に評価する必要があるでしょう。

さらに、Ｆ１スコアは多クラス分類問題にも対応が難しい場合があります。多クラス分類とは、３つ以上の分類を扱う問題です。例えば、果物をリンゴ、バナナ、ミカンに分類するといったケースです。単純なＦ１スコアでは、それぞれの分類の性能をまとめて一つの数値で表してしまうため、個々の分類の得意不得意が分かりにくくなります。リンゴの分類は得意でもミカンの分類が苦手という場合、単純なＦ１スコアではその情報が失われてしまうのです。多クラス分類問題では、それぞれの分類ごとにＦ１スコアを計算する、あるいは他の適切な指標を使うなど、工夫が必要です。

このように、Ｆ１スコアは便利な指標ですが、限界もあります。状況に応じて適切な指標を選び、モデルの性能を正しく評価することが大切です。

欠点	説明	例	対策
偽陰性と偽陽性の区別がない	偽陰性と偽陽性を同じ重さで扱うため、偽陰性の影響が大きいケースでは不適切	病気の診断で、実際には病気なのに陰性と判定される(偽陰性)方が、健康なのに陽性と判定される(偽陽性)よりも深刻	偽陰性をより重視した指標を用いる、偽陰性と偽陽性のコストを別々に評価する
多クラス分類問題への対応が難しい	各クラスの性能をまとめて一つの数値で表すため、個々のクラスの得意不得意が不明瞭になる	果物をリンゴ、バナナ、ミカンに分類する問題で、リンゴの分類は得意だがミカンの分類が苦手な場合、その情報が失われる	クラスごとにF1スコアを計算する、他の適切な指標を使う

より良いモデル構築に向けて

機械学習の分野では、作成した予測モデルの良し悪しを測るための様々な方法があります。その中で、F1スコアは特に重要な指標の一つと言えるでしょう。F1スコアは、適合率と再現率という二つの要素を組み合わせたもので、モデルの性能を総合的に評価するのに役立ちます。適合率は、モデルが「正しい」と予測したデータのうち、実際にどれだけが正しかったのかを示す割合です。一方、再現率は、実際に「正しい」データのうち、モデルがどれだけの割合を正しく予測できたのかを示す割合です。

F1スコアは、この適合率と再現率の調和平均をとることで計算されます。つまり、F1スコアが高いモデルは、適合率と再現率の両方がバランス良く高いことを意味します。これは、ただ闇雲に「正しい」と予測するだけでなく、実際に「正しい」データを漏れなく捉える能力も高いことを示しています。

しかし、F1スコアだけを追い求めるだけでは、必ずしも最良のモデルができるとは限りません。例えば、病気の診断のように、見逃しを極力減らしたい場合は、再現率を重視する必要があります。逆に、スパムメールの検知のように、誤って普通のメールをスパムと判断してしまうことを避けたい場合は、適合率を重視する必要があります。このように、モデルを使う目的や状況、そして扱うデータの特性によって、重視すべき指標は変わってきます。F1スコアは有用な指標ですが、他の指標と合わせて総合的に判断することが大切です。

さらに、F1スコアはあくまでもモデルの性能を数値で表したものに過ぎません。最終的には、そのモデルを実際にどのように使うのか、どのような結果を期待するのかといった、ビジネス上の視点も考慮に入れなければなりません。F1スコアを正しく理解し、適切に使うことで、より効果的な機械学習モデルの開発に繋げることができるでしょう。

指標	説明	計算方法	重視するケース
適合率 (Precision)	モデルが「正しい」と予測したデータのうち、実際に正しかった割合	正しいと予測して実際に正しかった数 / 正しいと予測した数	誤判定を減らしたい場合 (例: スパムメール検知)
再現率 (Recall)	実際に「正しい」データのうち、モデルが正しく予測できた割合	正しいと予測して実際に正しかった数 / 実際に正しい数	見逃しを減らしたい場合 (例: 病気診断)
F1スコア	適合率と再現率の調和平均	2 * (適合率 * 再現率) / (適合率 + 再現率)	適合率と再現率のバランスを取りたい場合