様々なサンプリング手法
統計や機械学習といった分野では、膨大な量の情報を扱うことがしばしばあります。これらの情報を全て調べるのは、時間や費用がかかりすぎるため、現実的ではありません。そこで、全体の性質をできる限り反映した一部の情報だけを取り出して、全体の様子を推測するという方法がよく用いられます。この手法を、サンプリング手法といいます。
全ての情報を集めたものを母集団、母集団から取り出した一部の情報を標本といいます。たとえば、ある池にいる魚全ての数を調べたいとします。池の水を全て抜いて魚を数えるのは大変な作業です。そこで、網を使って魚を何匹か捕まえ、その捕まえた魚の数を基に、池にいる魚全体の数を推測することができます。この場合、池にいる魚全てが母集団、網で捕まえた魚が標本にあたります。
サンプリング手法は、母集団の特徴を正しく捉えた標本を得るための様々な方法です。例えば、無作為抽出という手法では、母集団から偏りなく標本を選び出します。これは、くじ引きのように、どの情報も等しい確率で選ばれるようにする方法です。一方、層化抽出という手法では、母集団をいくつかのグループに分け、それぞれのグループから標本を抽出します。これは、例えば、年齢層別にグループ分けして、各年齢層から標本を抽出するような場合に用いられます。
適切なサンプリング手法を選ぶことは、母集団の性質を正しく推測するために非常に重要です。もし、標本が母集団の特徴を正しく反映していなければ、得られる推測結果も不正確なものになってしまいます。機械学習の分野では、学習に用いるデータを選んだり、データを新しく作る際に、サンプリング手法が欠かせないものとなっています。