ワンホットベクトル入門
あるデータの種類を表すのに役立つ手法として、ワンホットベクトルというものがあります。この手法では、0と1の数字だけを使って、データの種類を区別します。具体的には、複数の数字を並べたものをベクトルと呼び、そのベクトルの中でたった一つの数字だけが1で、残りはすべて0となっています。
例えば、りんご、みかん、バナナという三種類の果物を考えてみましょう。この三種類の果物をワンホットベクトルで表す場合、それぞれ異なる位置に1を配置することで区別します。りんごを[1, 0, 0]、みかんを[0, 1, 0]、バナナを[0, 0, 1]と表すわけです。このように、どの種類の果物なのかは、1がどの位置にあるかによって決まります。一番最初の数字が1ならりんご、二番目の数字が1ならみかん、三番目の数字が1ならバナナ、という具合です。
このワンホットベクトルの大きな特徴は、それぞれのベクトルが互いに独立しているという点です。つまり、りんごのベクトルが[1, 0, 0]だからといって、みかんのベクトルが[0, 1, 0]になる、といったような関係は一切ありません。りんご、みかん、バナナはそれぞれ独立した存在として扱われ、それぞれに固有のワンホットベクトルが割り当てられます。これは、りんごがみかんと似ているとか、バナナがりんごに似ているといったような、果物同士の類似性とは全く関係なく表現されるということです。それぞれの果物は、他の果物とは無関係に、独自のベクトルで表されます。このように、ワンホットベクトルを使うことで、データの種類を明確に区別することができ、データの分析などに役立ちます。