多クラス分類：複数クラスを判別する技術

機械学習

2024.11.26

多クラス分類：複数クラスを判別する技術

多クラス分類：複数クラスを判別する技術

AIを知りたい

『多クラス分類』って、たくさんの種類を分ける方法ですよね？よくわからないんですけど、具体的にどんな方法があるんですか？

AIエンジニア

そうですね。たくさんの種類を分ける方法です。主な方法として、『一対その他』『一対一』『多クラスソフトマックス』の三つがあります。それぞれの特徴を説明しましょう。

AIを知りたい

三つの方法があるんですね。それぞれどう違うんですか？

AIエンジニア

『一対その他』は、ある種類とそれ以外の種類を比べることを、全ての種類で行います。最終的に、どの種類に当てはまるかは、出力の強さで判断します。『一対一』は、任意の二つの種類を比べます。全部の種類の組み合わせを比べるので、たくさんの分類器が必要になります。最終的な判断は、多数決で行います。『多クラスソフトマックス』は、ソフトマックス関数という特別な計算方法を使って判断します。

多クラス分類とは。

人工知能で使われる言葉「多クラス分類」について説明します。多クラス分類とは、たくさんの種類に分ける方法のことです。主な方法として三つのやり方があります。「一つ対その他」、「一つ対一つ」、「多クラスソフトマックス」です。「一つ対その他」では、まず一つの種類とそれ以外の種類を分けます。これを全ての種類について行います。最終的にどれに当てはまるかは、結果の強さで決めます。「一つ対一つ」では、二つの種類を選び、その二種類を分類する作業を行います。全ての組み合わせで分類を行うため、たくさんの分類器が必要になります。どれに当てはまるかは、それぞれの分類器の結果の多数決で決めます。「多クラスソフトマックス」はソフトマックス関数という計算方法を使って分類します。

多クラス分類とは

たくさんの種類に分類することを多クラス分類といいます。これは、機械学習という、コンピュータにたくさんのデータを見せて、まるで人間のように考えさせる技術の一つです。データの種類が三種類以上の場合に、この多クラス分類が使われます。二種類に分類する場合は、二値分類と呼ばれ、これとは区別されます。

身近な例では、果物を分類する場合を考えてみましょう。リンゴ、バナナ、オレンジ、ブドウなど、色々な果物があります。これらの果物を種類ごとに分ける作業は、まさに多クラス分類です。もし、リンゴとそれ以外の果物に分けるだけなら二値分類ですが、三種類以上の果物に分類するなら多クラス分類です。

この技術は、私たちの生活の様々な場面で役立っています。例えば、写真に何が写っているかをコンピュータに判断させたいとき、この技術が使われます。犬、猫、鳥など、たくさんの種類の動物を写真から見分けることができます。また、文章から人の気持ちを理解するためにも使われています。喜び、悲しみ、怒りなど、複雑な気持ちを文章から読み取ることができます。さらに、病院では、患者の症状から病気を診断する際にも役立っています。多クラス分類は、画像認識、自然言語処理、医療診断など、幅広い分野で応用されている、大変便利な技術です。このように、コンピュータがたくさんの種類を見分けることができるおかげで、私たちの生活はより便利で豊かになっていると言えるでしょう。

手法の種類

物の種類を複数に分類する方法は、大きく分けて三つのやり方があります。一つ目は、「一つ対その他」と呼ぶ方法です。これは、ある特定の種類のものと、それ以外の種類のものを見分ける仕分け機を、分類したい種類の数だけ用意するやり方です。例えば、りんご、バナナ、みかんを分類する場合を考えてみましょう。この場合、「りんご」と「りんご以外」、「バナナ」と「バナナ以外」、「みかん」と「みかん以外」を見分ける三つの仕分け機を用意します。新しい品物がどの種類に当てはまるかを判断するには、それぞれの仕分け機に品物を通して、一番高い確率で当てはまると判断された種類に分類します。

二つ目は、「一つ対一つ」と呼ぶ方法です。この方法は、すべての種類の組み合わせごとに、二つの種類を見分ける仕分け機を作ります。りんご、バナナ、みかんの例で言えば、「りんご」と「バナナ」、「りんご」と「みかん」、「バナナ」と「みかん」を見分ける三つの仕分け機を用意します。新しい品物の分類は、各仕分け機の結果を多数決で決めます。つまり、多くの仕分け機がある種類に分類したなら、その種類に決定するということです。

三つ目は、「多種類まとめて分類する方法」です。これは、多くの種類を一度にまとめて分類するための特別な計算方法を使います。この方法では、確率に基づいて分類を行うため、それぞれの種類の確率も同時に知ることができます。例えば、新しい品物が「りんごである確率70%、バナナである確率20%、みかんである確率10%」のように確率で結果が表示されます。この方法は、種類が多い場合でも効率的に分類できるという利点があります。

一対他方式の利点と欠点

一対他方式は、多クラス分類問題を複数の二値分類問題に変換する手法です。この手法は、ある一つの種類とそれ以外の種類を区別する二値分類器を、種類の数だけ作成することで多クラス分類を実現します。例えば、リンゴ、ミカン、ブドウの三種類を分類する場合、「リンゴ対それ以外」、「ミカン対それ以外」、「ブドウ対それ以外」の三つの二値分類器を作成します。

この一対他方式には、いくつかの利点があります。まず、既存の二値分類の仕組みをそのまま利用できるという点が挙げられます。すでに広く使われている二値分類の手法やプログラムをそのまま活用できるため、新たに複雑な仕組みを開発する必要がなく、簡単に導入できます。また、分類器の数は種類の数と同じであるため、他の多クラス分類手法と比べて、比較的少ない計算量で分類処理を実行できるという利点もあります。

一方で、一対他方式には欠点も存在します。それぞれの二値分類器は互いに独立して学習するため、種類同士の関係性（例えば、リンゴとブドウはミカンより似ているなど）を考慮することができません。これは分類の精度に影響を与える可能性があります。また、学習データの偏りも問題となります。「リンゴ対それ以外」の分類器の場合、リンゴのデータは全体の３分の１しかありませんが、「それ以外」のデータは３分の２を占めます。このように、分類器ごとにデータの割合が大きく異なるため、分類器の学習がうまくいかない可能性があります。特に、ある種類のデータが少ない場合、その種類の分類器の性能が低下し、誤った分類結果につながる可能性が高くなります。

分類方法	説明	例（りんご、バナナ、みかん）	利点・欠点
一つ対その他	各種類とそれ以外を区別する仕分け機を用意。最も確率の高い種類に分類。	「りんご」と「りんご以外」、「バナナ」と「バナナ以外」、「みかん」と「みかん以外」の3つの仕分け機	単純だが、種類が増えると仕分け機の数が多くなる。
一つ対一つ	種類ごとの組み合わせで仕分け機を作成。多数決で分類を決定。	「りんご」と「バナナ」、「りんご」と「みかん」、「バナナ」と「みかん」の3つの仕分け機	各仕分け機は2種類のみを区別すれば良いが、種類が増えると仕分け機の数が多くなる。
多種類まとめて分類	特別な計算方法で一度に分類。確率で結果を表示。	りんごである確率70%、バナナである確率20%、みかんの確率10%のように表示	種類が多くても効率的。確率も算出できる。

項目	内容
手法	一対他方式 (多クラス分類問題を複数の二値分類問題に変換)
仕組み	ある種類とそれ以外の種類を区別する二値分類器を、種類の数だけ作成
例	リンゴ、ミカン、ブドウの分類：「リンゴ対それ以外」、「ミカン対それ以外」、「ブドウ対それ以外」の3つの二値分類器
利点	既存の二値分類の仕組みをそのまま利用可能計算量が比較的少ない
欠点	種類同士の関係性を考慮できない (例: リンゴとブドウはミカンより似ている) 学習データの偏り (例: 「リンゴ対それ以外」でリンゴのデータは全体の1/3) データが少ない種類の分類性能が低下しやすい

一対一方式の利点と欠点

一対一方式は、複数の種類を区別する際に、それぞれ二つの種類を選び出して一つずつ分類器を作る方法です。この方式には、データの量の偏りに左右されにくいという利点があります。たくさんの種類を一度に分類しようとすると、ある特定の種類のデータが他の種類に比べて極端に少ない場合、分類の精度が落ちてしまうことがあります。しかし、一対一方式では、分類器が扱うのは常に二つの種類だけなので、データ量の差が大きな問題になりにくく、それぞれの分類器を比較的均等な量のデータで学習させることができます。

また、種類同士の関係性をきちんと捉えられる点もこの方式の強みです。複雑な関係にある複数の種類を一度に分類しようとすると、その関係性をうまく把握できずに、誤った分類をしてしまう可能性があります。一対一方式では、二つの種類に絞って分類を行うため、種類同士の微妙な違いや関係性をより正確に反映した分類器を作ることができます。

しかし、一対一方式には欠点もあります。分類器の種類の組み合わせの数だけ分類器が必要になるため、計算にかかる時間や資源が増えてしまう点が大きな課題です。例えば、四つの種類を分類する場合、六つの分類器が必要になります。種類が増えるほど、必要な分類器の数は急激に増え、計算の負担が大きくなってしまいます。そのため、扱う種類が多い大規模なデータには、この方式を適用するのが難しい場合があります。

さらに、最終的な分類の正しさは、個々の分類器の正しさに大きく左右されるという問題点もあります。一対一方式では、複数の分類器の結果を多数決でまとめて最終的な分類結果を出します。もし、個々の分類器の精度が低いと、多数決の結果も間違ってしまう可能性が高くなります。つまり、分類器の精度を高く保つことが、一対一方式全体の精度を上げるために不可欠です。

項目	説明
手法	一対一方式
概要	複数の種類を区別する際に、それぞれ二つの種類を選び出して一つずつ分類器を作る方法。
利点	データの量の偏りに左右されにくい。種類同士の関係性をきちんと捉えられる。
欠点	分類器の種類の組み合わせの数だけ分類器が必要になるため、計算にかかる時間や資源が増えてしまう。最終的な分類の正しさは、個々の分類器の正しさに大きく左右される。
例	四つの種類を分類する場合、六つの分類器が必要。

多クラスソフトマックス方式の利点と欠点

多様な種類を同時に分類する際に用いられる多クラスソフトマックス方式には、利点と欠点が存在します。まず、この方式の大きな利点は、全ての分類対象を一度に考慮できる点です。それぞれの種類の特徴だけでなく、種類同士の関係性も踏まえて分類を行うため、全体を俯瞰した精度の高い分類結果が期待できます。たとえば、果物を分類する際に、りんご、みかん、バナナをそれぞれの特徴から見分けるだけでなく、りんごの赤色とみかんのオレンジ色の類似性や、バナナの細長い形と他の果物の丸い形の差異といった関係性も考慮することで、より正確な分類が可能になります。また、確率に基づいて分類を行うため、各種類に属する確率情報を得ることもできます。この確率情報は、分類結果の信頼度を測る指標として活用できます。

しかし、多クラスソフトマックス方式には欠点も存在します。一つ目は、計算の手間が比較的大きいという点です。分類対象の種類の数が増えるほど、計算量も増大するため、処理に時間がかかってしまう場合があります。特に、膨大なデータを扱う場合や、リアルタイムでの処理が求められる場合には問題となる可能性があります。二つ目は、計算の仕組みが複雑なため、実際にプログラムとして作成するのが難しいという点です。専門的な知識や技術が必要となるため、導入のハードルが高いと言えます。三つ目は、データの偏りに影響を受けやすいという点です。特定の種類のデータが極端に多い場合、分類の精度が低下する可能性があります。例えば、学習データにりんごのデータが非常に多く、みかんとバナナのデータが少ない場合、りんごの分類精度は高くなりますが、みかんとバナナの分類精度は低くなる可能性があります。そのため、データの偏りを調整する必要がある場合もあります。

項目	内容	具体例（果物分類）
利点	全体を考慮した分類	りんご、みかん、バナナの特徴だけでなく、色や形の類似性・差異も考慮
	確率情報の取得	各果物に属する確率で分類の信頼度を測る
	高い分類精度	関係性を考慮した分類
欠点	計算コスト大	種類が多いほど計算量が増え、処理時間が増加
	実装の難しさ	複雑な仕組みで専門知識・技術が必要
	データ偏りの影響	りんごのデータが多いと、みかんとバナナの分類精度は低下

手法の選び方

様々な手法からどれを選ぶかは、扱うデータの性質や使える計算機の力などをよく考えて決める必要があります。例えば、データの種類ごとの数がほぼ均等で、かつ強力な計算機が使える場合は、多クラスソフトマックス方式が向いています。この方法は、全ての分類対象を一度に考えて計算するため、結果の整合性を取りやすく、計算時間も短いという利点があります。

一方で、データの種類ごとの数が大きく偏っている場合や、計算機の性能が限られている場合は、一対他方式が適しています。この方法は、ある一つの種類とそれ以外の種類を区別する分類器を、種類ごとにつくります。例えば、りんご、みかん、ぶどうを分類する場合、「りんごか、りんご以外か」を判断する分類器、「みかんか、みかん以外か」を判断する分類器、「ぶどうか、ぶどう以外か」を判断する分類器の、計３つの分類器を作ります。そのため、多クラスソフトマックス方式に比べて計算量が少なく、限られた計算資源でも計算が可能です。また、データの偏りに強いという特性もあります。

さらに、分類対象の種類同士の関係性を考慮したい場合は、一対一方式も有力な選択肢です。この方法は、種類ごとの全ての組み合わせについて、二つの種類を区別する分類器をつくります。先ほどの例でいえば、「りんごかみかんか」を判断する分類器、「りんごかぶどうか」を判断する分類器、「みかんかぶどうか」を判断する分類器の３つの分類器が必要になります。この方法は、種類同士の関係性を捉えやすい反面、分類器の数が増えるため、計算コストが大きくなる傾向があります。

それぞれの方式には利点と欠点があるため、目的に合わせて適切な方式を選ぶことが重要です。多くの場合、どの方式が最適かは事前にわからないため、複数の方式を試してみて、実際に一番良い結果が得られた方式を採用することがよくあります。それぞれの方式で試しに分類器を作り、正しく分類できた割合などの指標を使って性能を比べることで、最適な方式を見つけることができます。

手法	説明	利点	欠点	適した状況
多クラスソフトマックス方式	全ての分類対象を一度に考えて計算	結果の整合性を取りやすい、計算時間が短い	データの偏りに弱い、計算機の性能が必要	データの種類ごとの数がほぼ均等、強力な計算機が使える場合
一対他方式	ある一つの種類とそれ以外の種類を区別する分類器を、種類ごとにつくる	計算量が少なく、限られた計算資源でも計算可能、データの偏りに強い	整合性を取りにくい場合がある	データの種類ごとの数が大きく偏っている場合、計算機の性能が限られている場合
一対一方式	種類ごとの全ての組み合わせについて、二つの種類を区別する分類器をつくる	種類同士の関係性を捉えやすい	分類器の数が増えるため、計算コストが大きくなる傾向がある	分類対象の種類同士の関係性を考慮したい場合