交差検証でモデルの精度を確かめる
機械学習の分野では、作った模型がどれほど使えるのかを確かめることがとても大切です。この確認作業でよく使われるのが交差検証と呼ばれる方法です。交差検証を使う目的は、限られた学習データを最大限に活用し、未知のデータにどれだけうまく対応できるのか、つまり汎化性能を正しく評価することにあります。
交差検証は、データをいくつかのグループに分けて行います。それぞれのグループを順番にテストデータとして使い、残りのグループを学習データとして模型を作ります。例えば、10個のデータがあったとしましょう。このデータを10個のグループに分けます。まず、1番目のグループをテストデータ、残りの9個のグループを学習データとして模型を作ります。次に、2番目のグループをテストデータ、残りの9個のグループを学習データとして模型を作ります。これを全てのグループが一度テストデータになるまで繰り返します。
このようにして、それぞれのグループで作った模型の性能を平均することで、模型全体の性能を評価します。この方法を10分割交差検証と呼びます。5分割交差検証や3分割交差検証といった方法もあります。分割数を大きくするほど、学習データは多くなり、テストデータは少なくなります。
交差検証を行う利点は、限られたデータから偏りのない評価結果を得られることです。もし、データを一度だけ学習用とテスト用に分けた場合、その分け方によって評価結果が大きく変わる可能性があります。交差検証では、全てのデータがテストデータとして使われるため、特定のデータ分割による偏りを防ぎ、より客観的な評価が可能になります。こうして、未知のデータに対しても安定した性能を発揮する、信頼性の高い模型を作ることができます。