テストデータ

記事数:(4)

未知データへの対応：汎化性能

学習をさせた機械には、初めて見る情報にもうまく対応できる能力が求められます。この能力のことを汎化性能と呼びます。汎化性能とは、学習に使っていないデータに対して、機械がどれくらい正確に予測や分類ができるかを示す指標です。たとえば、たくさんの猫の絵を使って機械に猫を覚えさせた後、初めて見る猫の絵を見せたときに、機械がそれをきちんと猫だと判断できるかどうかが重要になります。学習に使った猫の絵だけを完璧に覚えたとしても、それだけでは現実世界で役に立つ機械とは言えません。なぜなら、現実世界には学習に使ったものとは少し違う猫の絵もたくさん存在するからです。機械が、学習したことをもとに、初めて見る猫の絵にも対応できる、これが汎化性能の高さにつながります。汎化性能の低い機械は、学習に使ったデータに過剰に適応してしまい、それ以外のデータには対応できなくなってしまいます。これは、まるで特定の猫の絵だけを暗記してしまい、他の猫の絵を猫だと認識できないようなものです。このような状態を過学習と呼びます。過学習が起きると、見たことのないデータに対しては、まるで役に立たない機械になってしまいます。反対に、汎化性能の高い機械は、学習したデータから本質的な特徴を捉え、それを新しいデータにも応用することができます。たとえば、猫の耳の形や目の形、ひげの本数といった特徴を学習することで、様々な種類の猫を猫だと正しく判断できるようになります。機械学習では、この汎化性能を高めることが非常に重要です。そのため、学習データの選び方や学習方法を工夫し、未知のデータにも対応できる、本当に役立つ機械を作ることが目指されています。

ホールドアウト検証と交差検証

機械学習の良し悪しを確かめる方法の一つに、ホールドアウト検証というものがあります。これは、持っているデータを学習用とテスト用に二つに分けて使う方法です。学習用のデータで機械に学習させ、テスト用のデータでその学習の成果を確かめます。たとえば、全部のデータのうち八割を学習用、残りの二割をテスト用とします。この分け方は、普通はでたらめに決めますが、データの種類によっては、偏りができないように工夫が必要な場合もあります。たとえば、時間の流れに沿って集めたデータの場合、古いデータを学習用、新しいデータをテスト用にすると良いでしょう。ホールドアウト検証は、やり方が簡単で、計算の手間も少ないという良い点があります。しかし、データの分け方によって結果が変わってしまうという困った点もあります。たまたま学習用のデータに簡単なものばかりが入っていたり、逆に難しいものばかりが入っていたりすると、機械の本当の実力を正しく測ることができません。この問題を少しでも軽くするために、データの分け方を変えて何度も検証を行うという方法もあります。たとえば、最初の検証では1番目から80番目のデータを学習用とし、81番目から100番目をテスト用とします。次の検証では、11番目から90番目のデータを学習用、1番目から10番目と91番目から100番目のデータをテスト用とします。このように少しずつずらしながら何度も検証を繰り返すことで、特定のデータの偏りの影響を減らすことができます。そして、それぞれの検証結果の平均を取ることで、より信頼性の高い評価を行うことができます。ホールドアウト検証は手軽に使える検証方法ですが、データの分け方に注意が必要です。目的に合わせて適切にデータ分割を行い、必要であれば複数回の検証を行うことで、より正確な評価結果を得ることができます。

交差検証でモデルの精度を確かめる

機械学習の分野では、作った模型がどれほど使えるものなのかをきちんと確かめることが大切です。この作業を「模型の性能評価」と言いますが、そのための便利な方法の一つが「交差検証」です。交差検証は、限られた学習データを有効に使い、模型が未知のデータに対してどれくらい正確に予測できるのかを評価する手法です。すべてのデータを使って模型を作ってしまうと、「過学習」という状態になりがちです。過学習とは、学習に使ったデータに対しては精度が高いように見えても、実際には新しいデータに対してはうまく予測できない状態のことです。例えるなら、過去問だけを完璧に覚えて試験に臨むようなもので、見たことのない問題に対応できません。過学習を防ぐため、一般的にはデータを「学習用」と「評価用」に分けます。学習用データで模型を訓練し、評価用データでその性能を評価します。しかし、一度だけの分割では、たまたま分け方が偏っていた場合、正確な評価ができるとは限りません。まるで、過去問のほんの一部だけで自分の実力を判断するようなものです。そこで交差検証の出番です。交差検証では、データを複数回にわたって異なる方法で学習用と評価用に分割します。それぞれの分割で模型の学習と評価を繰り返し、その結果を平均することで、より信頼性の高い評価を得られます。これは、過去問をいくつかのグループに分け、それぞれのグループで練習と模擬試験を繰り返すようなものです。何度も練習と試験を繰り返すことで、自分の本当の力が分かります。このように、交差検証は、限られたデータから模型の真の実力を明らかにするための、強力な手法と言えるでしょう。