分類問題

記事数:(2)

機械学習

偏ったデータへの対処法

情報の集まりであるデータは、機械学習という技術において、なくてはならないものです。この機械学習という技術は、様々な情報を集めたデータを使って、まるで人間のように自ら学ぶことができる仕組みを作ることです。しかし、集めたデータの中には、特定の種類の情報が他の種類に比べて極端に多い、または少ないといった偏りがある場合があります。このような偏りのことを「データの偏り」と言います。 例として、クレジットカードの不正利用を見つける仕組みを考えてみましょう。クレジットカードの利用全体を考えた時、不正利用はごく僅かな割合しかありません。ほとんどの利用は正規の利用です。このように、ある特定の出来事に関する情報が他の出来事に比べて非常に少ない場合、これを「不均衡データ」と呼びます。 この不均衡データは、機械学習の仕組みを作る上で、悪影響を与える可能性があります。せっかく作った仕組みの精度が下がり、うまく働かないことがあるのです。具体的には、量の多い情報の特徴ばかりを学習し、量の少ない情報の特徴を捉えられないという問題が発生しやすくなります。クレジットカードの例で言えば、不正利用の情報が少ないため、不正利用の特徴を捉えきれません。その結果、不正利用を見つける精度が低くなってしまうのです。 データの偏りをなくす、あるいはその影響を少なくするための対策はいくつかあります。例えば、少ない種類の情報を人工的に増やす方法や、多い種類の情報を減らす方法、あるいは学習の仕方を工夫する方法などがあります。適切な対策を行うことで、偏りのあるデータからでも、精度の高い機械学習の仕組みを作ることが可能になります。
機械学習

分類問題:機械学習の基礎

分類問題とは、機械学習という技術の中で、物事をいくつかの種類に分ける問題のことです。まるで、たくさんの果物をリンゴ、バナナ、ミカンといったように分けていく作業に似ています。機械学習では、コンピュータに大量のデータを与えて、そのデータの特徴を学習させます。そして、新しいデータが来た時に、それがどの種類に属するかをコンピュータに判断させるのです。 例えば、様々な動物の画像をコンピュータに学習させるとします。それぞれの画像には、「これは犬です」「これは猫です」「これは鳥です」といった情報(ラベル)が付けられています。コンピュータは、たくさんの画像データとそのラベルから、犬の特徴、猫の特徴、鳥の特徴を学び取ります。そして、新しい動物の画像を見せられた時に、学習した特徴に基づいて、それがどの動物に該当するかを判断するのです。これが、分類問題の基本的な考え方です。 分類問題で扱う種類は、連続的な数値ではなく、互いに独立したものです。例えば、動物の種類や果物の種類は、それぞれが独立したカテゴリーです。一方、気温や身長のように連続的に変化する値を予測する問題は、分類問題ではなく回帰問題と呼ばれます。分類問題は、画像認識、音声認識、自然言語処理といった様々な分野で活用されています。迷惑メールの判別も分類問題の一例です。迷惑メールとそうでないメールの特徴をコンピュータに学習させることで、新しいメールが来た時に、それが迷惑メールかどうかを自動的に判断することができます。また、医療診断や顧客の購買行動の予測など、私たちの生活に密接に関わる様々な場面で、分類問題が役立っています。