k分割交差検証で精度向上
機械学習の模型の働きぶりを測るには、使える資料をうまくやりくりする必要があります。そのためのやり方の一つに、分割検証というものがあります。分割検証は、持っている資料を同じくらいの大きさの束に分け、そのうちいくつかを模型の学習に、残りを模型の評価に使うというものです。
具体的には、まず資料を同じ大きさの例えば10個の束に分けます。そして、その中の9個の束を使って模型を学習させ、残りの1個の束で模型の働きぶりを評価します。次に、別の9個の束で学習させ、残りの1個で評価する、ということを繰り返します。こうして、それぞれの束が1回ずつ評価に使われるように、全部で10回繰り返します。10回の評価が終わると、10個の評価結果が得られます。この10個の平均値を、模型の最終的な成績として使います。
このように、全ての資料を学習と評価の両方に使うことで、限られた資料でも模型の真の実力をより正しく測ることができます。分割数を10にした場合を10分割検証と言いますが、3分割や5分割といったやり方もあります。分割数は、資料の量や性質に合わせて適切に決める必要があります。資料の数が少ない場合は、分割数を大きくすることで、より多くの資料を学習に使うことができます。ただし、分割数を大きくしすぎると、計算に時間がかかってしまうため、バランスが大切です。
この方法は、特に資料が少ない場合に、模型が新しい資料に対してもきちんと働くかどうかを、より正確に見積もるために役に立ちます。たくさんの資料があれば、最初から学習用と評価用に分けてしまっても良いのですが、資料が少ない場合は、分割検証を使うことで、限られた資料を最大限に活用することができます。