密ベクトル入門:データ表現の基礎
中身がぎっしり詰まったベクトル、それが密ベクトルです。ベクトルとは、数値を順番に並べたもので、データの特徴を表すのに使われます。密ベクトルでは、そのほとんどの要素にゼロ以外の数値が入っています。
たとえば、文章を分析したいとしましょう。文章の中にどのような単語が何回出てきているかを数えて、ベクトルを作ることができます。単語の種類がたくさんあれば、ベクトルの要素数も多くなります。ある単語が文章中に3回出てきていれば、その単語に対応するベクトルの要素には3という数値が入ります。このように、単語の出現回数を使って文章の特徴を数値で表すことができます。このベクトルは、機械学習のモデルへの入力として使われ、文章の分類や意味の理解などに役立ちます。
画像を扱う場合を考えてみましょう。画像は小さな色の点が集まってできています。それぞれの点の色を数値で表すことで、画像全体を一つのベクトルとして表現できます。例えば、白黒画像であれば、それぞれの点の明るさを0から1までの数値で表し、それを順番に並べることでベクトルを作ります。カラー画像であれば、赤、緑、青の三色の強さを数値で表し、それらを組み合わせてベクトルを作ります。こうしてできたベクトルは、画像認識や画像検索などに利用されます。
また、買い物の履歴からもベクトルを作ることができます。商品ごとに番号を振っておき、それぞれの商品を何回買ったかを数えてベクトルを作ります。ある商品を5個買ったならば、その商品に対応するベクトルの要素には5が入ります。何も買わなかった商品に対応する要素には0が入ります。このようにして作ったベクトルは、その人の購買傾向を表すものとして、お勧め商品の表示などに利用できます。
密ベクトルは、多くの情報を詰め込むことができるため、複雑なデータの関係性を捉えるのに役立ちます。これは、機械学習モデルがデータを学習する上で非常に重要です。高次元のデータ、つまり要素数の多いデータも効率よく表現できるので、様々な場面で活用されています。