半教師あり学習:機械学習の新潮流
機械学習には大きく分けて三つの方法があります。一つ目は、解答付きの問題をたくさん解いて学習する教師あり学習、二つ目は解答なしの問題をたくさん解いて学習する教師なし学習、そして三つ目は少量の解答付きの問題と大量の解答なしの問題を使って学習する半教師あり学習です。
半教師あり学習は、この三つの学習方法のうちの一つで、少量のラベル付きデータと大量のラベルなしデータの両方を使って学習を行います。ラベル付きデータとは、例えばある写真に「ねこ」という名前が付けられているように、データに説明が付け加えられているデータのことです。一方、ラベルなしデータとは、写真だけが存在するといったように、説明が付け加えられていないデータのことです。
これまでの教師あり学習では、ラベル付きデータのみを使って学習していたため、大量のデータにラベルを付ける作業が必要で、費用と時間が多くかかっていました。一方で、教師なし学習はラベルなしデータのみを使うため、データの構造や特徴をつかむことはできますが、特定の作業に対する能力は低い傾向にあります。
半教師あり学習は、これらの二つの学習方法のよいところを組み合わせることで、ラベル付け作業の負担を軽くしつつ、高い能力を実現することを目指しています。具体的には、ラベル付きデータから学習した知識をラベルなしデータに当てはめることで、ラベルなしデータにも仮のラベルを付け、より多くのデータで学習を行います。
例えば、少量の「ねこ」とラベル付けされた画像と、大量のラベルのない画像を使って学習する場合を考えてみましょう。まず、ラベル付きの「ねこ」の画像から、ねこの特徴(耳の形、ひげ、毛並みなど)を学習します。次に、この学習した特徴をラベルなしの画像に当てはめ、「ねこ」らしさの高い画像に仮の「ねこ」ラベルを付けます。そして、これらのラベル付きと仮ラベル付きの画像を全て使って学習を行うことで、より多くのデータで学習できたことになり、少ないラベル付きデータでも精度の高いねこの判別ができるようになります。このように、半教師あり学習は、ラベル付けのコストを抑えながら、高性能なモデルを作ることを可能にします。