混同行列：分類モデルの評価指標

混同行列：分類モデルの評価指標

混同行列：分類モデルの評価指標

AIを知りたい

先生、「混同行列」って、２×２の表で予測と実際の値の組み合わせを表すって説明がありましたが、どんな時に使うんですか？

AIエンジニア

そうだね。例えば、手書きの数字をAIに認識させることを考えてみよう。AIが数字の「７」を「１」と間違えて認識してしまうこともあるよね。混同行列を使うと、AIがどれくらい正確に数字を認識できているかを詳しく調べることができるんだ。

AIを知りたい

詳しく、というと？

AIエンジニア

例えば「７」を「７」と正しく認識できた数や、「１」を「７」と間違えて認識した数など、それぞれの組み合わせの数がわかる。だから、AIがどんな間違いをしやすいかもわかるので、AIの改善に役立つんだ。

混同行列とは。

人工知能に関わる言葉である「混同行列」について説明します。正解と予測結果を組み合わせると、２×２＝４通りのパターンができます。この４つのパターンを表にしたものを混同行列といいます。

混同行列とは

機械学習を用いて、ものごとをいくつかの種類に分類する問題に取り組む際には、作った予測モデルの良し悪しを確かめる様々な方法があります。その中でも、混同行列は予測結果と実際のデータの関係を詳しく把握できる便利な道具です。例えば迷惑メールを判別するシステムを考えてみましょう。このシステムは、受け取ったメールが迷惑メールかそうでないかを予測します。この予測の正確さを評価するために、混同行列は真陽性、真陰性、偽陽性、偽陰性の４つの要素を使います。これらの要素は、システムの予測と実際のメールの種類の組み合わせから決まります。実際に迷惑メールで、システムも迷惑メールと正しく予測した場合は真陽性です。迷惑メールではないメールを、システムも迷惑メールではないと正しく予測した場合は真陰性です。逆に、迷惑メールではないメールを、システムが間違えて迷惑メールと予測した場合は偽陽性です。これは、安全なメールを誤って迷惑メールフォルダに振り分けてしまうことを意味します。また、実際に迷惑メールであるにもかかわらず、システムが間違えて迷惑メールではないと予測した場合は偽陰性です。これは、迷惑メールが受信箱に届いてしまうことを意味し、見逃すと大変危険です。混同行列はこれらの４つの要素を２行２列の表にまとめたものです。この表を見ることで、モデルの全体的な正確さだけでなく、どのような種類の誤りを犯しやすいのかなど、より詳しい分析ができます。例えば、偽陽性が多ければ、安全なメールを誤って迷惑メールと判断する傾向が強いことが分かります。反対に偽陰性が多ければ、迷惑メールを見逃す危険性が高いことが分かります。このように、混同行列はモデルの性能を多角的に評価することを可能にするのです。

	予測：迷惑メール	予測：迷惑メールではない
実際：迷惑メール	真陽性 (TP) 正しく迷惑メールと予測	偽陰性 (FN) 誤って迷惑メールではないと予測
実際：迷惑メールではない	偽陽性 (FP) 誤って迷惑メールと予測	真陰性 (TN) 正しく迷惑メールではないと予測

混同行列の構成要素

混同行列は、機械学習モデルの性能を測る上で欠かせない道具です。この行列は、モデルの予測結果と実際のデータとの関係を分かりやすく示してくれます。混同行列は主に四つの要素で構成されています。それぞれ、真陽性、真陰性、偽陽性、偽陰性と呼ばれています。

まず、真陽性とは、実際に正であるデータを正しく正であると予測できた数です。例えば、病気の人を検査で病気だと正しく診断できた場合などがこれに当たります。次に、真陰性とは、実際に負であるデータを正しく負であると予測できた数です。健康な人を検査で健康だと正しく診断できた場合などが該当します。

一方、偽陽性とは、実際には負であるデータを誤って正であると予測してしまった数です。健康な人を検査で病気だと誤診してしまった場合などがこれにあたります。最後に、偽陰性とは、実際には正であるデータを誤って負であると予測してしまった数です。病気の人を検査で健康だと誤診してしまった場合などがこれに当たります。

この四つの要素は、単独で評価指標として用いられることは少なく、組み合わせて用いられることがほとんどです。例えば、正解率は、全体の中で正しく分類できた割合を示し、真陽性と真陰性の合計をデータの総数で割ることで求められます。また、正と予測したデータの中で実際に正であった割合を示す適合率や、実際に正であるデータの中で正しく正と予測できた割合を示す再現率なども、これらの要素を組み合わせて計算されます。これらの指標を理解することで、モデルの得意不得意を把握し、より良いモデルへと改良していくことができます。

実際の値	予測：正	予測：負
実際の値：正	真陽性 (True Positive)	偽陰性 (False Negative)
実際の値：負	偽陽性 (False Positive)	真陰性 (True Negative)

混同行列の活用例

混同行列は、様々な分野で活用される強力な道具です。実際のものごとと、それに対する予測結果を比較することで、モデルの性能を詳しく調べることができます。この行列は、医療診断から迷惑な電子手紙の選別まで、幅広い応用が見られます。

例えば、病気の診断を考えてみましょう。患者が実際に病気を患っているかどうか、そして検査の結果が陽性か陰性か、この二つの要素の組み合わせで混同行列が作られます。この行列は、真陽性（実際に病気で、検査も陽性）、真陰性（実際に病気ではなく、検査も陰性）、偽陽性（実際は病気でないのに検査が陽性）、偽陰性（実際は病気なのに検査が陰性）の四つの要素から成り立ちます。特に偽陽性と偽陰性は、深刻な結果をもたらす可能性があるため注意が必要です。偽陽性は、健康な人に不必要な心配や追加の検査を引き起こすかもしれません。一方、偽陰性は、病気の発見が遅れ、適切な治療の開始が遅れる可能性があります。混同行列を用いることで、これらの誤りの発生率を把握し、検査方法や判定基準を調整することで、より正確な診断を実現できます。

迷惑な電子手紙の選別でも、混同行列は役立ちます。ここでは、電子手紙が実際に迷惑かどうか、そして迷惑電子手紙と判定されたかどうかで混同行列を作成します。偽陽性、つまり実際には迷惑ではないのに迷惑電子手紙と判定される場合、重要な連絡を見逃してしまう可能性があります。一方、偽陰性、つまり実際には迷惑電子手紙なのに通常の電子手紙と判定される場合は、迷惑な電子手紙を受け取ることになります。混同行列を使うことで、これらの誤判定の割合を把握し、選別基準を調整することで、より効果的な迷惑電子手紙対策が可能になります。つまり、重要な電子手紙は受信箱にきちんと届き、迷惑な電子手紙はしっかりと排除されるように設定を調整できるのです。このように、混同行列は予測モデルの性能評価と改善に欠かせない道具と言えるでしょう。

	予測：陽性	予測：陰性
実際：陽性	真陽性 (TP) 例：実際に病気で、検査も陽性例：実際に迷惑メールで、迷惑メールと判定	偽陰性 (FN) 例：実際は病気なのに、検査は陰性例：実際に迷惑メールなのに、迷惑メールと判定されない
実際：陰性	偽陽性 (FP) 例：実際は病気でないのに、検査は陽性例：実際は迷惑メールでないのに、迷惑メールと判定	真陰性 (TN) 例：実際は病気でなく、検査も陰性例：実際は迷惑メールでなく、迷惑メールとも判定されない

様々な評価指標との関係

分類結果を様々な角度から評価するために、混同行列から算出される様々な指標が存在します。これらの指標は、機械学習モデルの性能を多角的に把握し、改善点を明確にするために役立ちます。代表的な指標として、正解率、適合率、再現率、F値などが挙げられます。

まず、正解率は、全体の中で正しく分類できた割合を表します。これは直感的に理解しやすい指標ですが、データの偏りがある場合には注意が必要です。例えば、ある病気の検査で、その病気に罹患している人が非常に少ない場合、全て陰性と予測するだけでも高い正解率が得られてしまう可能性があります。

次に、適合率は、陽性と予測されたデータの中で実際に陽性であったデータの割合です。言い換えると、陽性と予測したもののうち、どれだけの予測が当たっていたかを示します。この指標は、陽性と予測することによる損失が大きい場合に重要となります。例えば、迷惑メールの判定で、重要なメールを誤って迷惑メールと判断してしまうと大きな損失に繋がるため、高い適合率が求められます。

一方、再現率は、実際に陽性であるデータの中で正しく陽性と予測できたデータの割合です。つまり、陽性のデータを見逃さずに、どれだけの割合を正しく捉えられたかを示します。この指標は、陽性を見逃すことによる損失が大きい場合に重要です。例えば、病気の診断において、病気を見逃してしまうと重篤な事態に繋がる可能性があるため、高い再現率が求められます。

最後に、F値は、適合率と再現率の調和平均です。適合率と再現率はトレードオフの関係にあることが多く、どちらか一方を高くしようとするともう一方が低くなる傾向があります。F値は、これらのバランスを考慮した指標であり、どちらの指標も同程度に重要視する場合に用いられます。

このように、混同行列から算出される指標は、それぞれ異なる視点からモデルの性能を評価します。目的に合わせて適切な指標を選択し、モデルの精度向上に役立てましょう。

指標名	説明	用途	計算式
正解率(Accuracy)	全体の中で正しく分類できた割合	データの偏りが少ない場合の全体的な性能評価	(TP + TN) / (TP + FP + FN + TN)
適合率(Precision)	陽性と予測されたデータの中で実際に陽性であったデータの割合	陽性と予測することによる損失が大きい場合	TP / (TP + FP)
再現率(Recall)	実際に陽性であるデータの中で正しく陽性と予測できたデータの割合	陽性を見逃すことによる損失が大きい場合	TP / (TP + FN)
F値(F-measure)	適合率と再現率の調和平均	適合率と再現率のバランスを考慮したい場合	2 * (適合率 * 再現率) / (適合率 + 再現率)

モデル改善への活用

予測モデルの改善には、混同行列がとても役に立ちます。混同行列は、モデルの正しい予測と誤った予測を種類別に分類して表にしたものです。この表を見ることで、モデルの得意な点と不得意な点を把握し、改善策を立てることができます。

例えば、ある病気の診断モデルを考えてみましょう。このモデルが、実際には病気でない人を病気だと誤って判断するケース（偽陽性）が多いとします。混同行列を見ると、この偽陽性の多さがすぐに分かります。偽陽性が多いということは、モデルが特定の症状を病気のサインだと過剰に学習している可能性があります。この場合、追加の学習データを集めたり、学習方法を調整することで改善できるかもしれません。具体的には、病気でない人のデータを増やす、あるいは特定の症状に過剰に反応しないようにモデルの学習パラメータを調整する、といった対策が考えられます。

逆に、実際には病気である人を病気でないと誤って判断するケース（偽陰性）が多い場合も、混同行列からその傾向を読み取ることができます。偽陰性が多い場合は、モデルが病気の重要なサインを見落としている可能性があります。この場合は、見落としている重要なサインをモデルに学習させる必要があります。例えば、初期症状のデータを追加で収集し、モデルに学習させることで改善できる可能性があります。また、データの前処理方法を見直すことも有効です。例えば、ノイズ除去の方法を改善することで、重要なサインがより明確になり、モデルが正しく学習できるようになるかもしれません。

このように、混同行列を分析することで、モデルの具体的な問題点を特定し、適切な改善策を講じることができます。さらに、モデルの改善後にも混同行列を定期的に確認することで、モデルの性能を継続的に監視し、常に最適な状態を維持することができます。混同行列は、モデル改善の強力な羅針盤と言えるでしょう。

ケース	説明	考えられる原因	改善策
偽陽性が多い	実際には病気でない人を病気だと誤って判断する	特定の症状を病気のサインだと過剰に学習している	病気でない人のデータを増やす特定の症状に過剰に反応しないようにモデルの学習パラメータを調整する
偽陰性が多い	実際には病気である人を病気でないと誤って判断する	病気の重要なサインを見落としている	初期症状のデータを追加で収集し、モデルに学習させるデータの前処理方法を見直す（例: ノイズ除去）