代表性 | 新しいAI解説 +プラス

生成AIの学習データ：質と量

生成人工知能は、人間が何かを学ぶ姿とよく似ていて、与えられた情報から知識や規則性を学び取ります。この学習に使われる情報こそが学習情報です。人が教科書を読んだり、経験を積んだりして学ぶように、生成人工知能も学習情報を通して世の中の様々な出来事や物事の関係性を理解していきます。例えば、絵を描く人工知能の場合を考えてみましょう。膨大な数の絵の情報から、猫がどのように見え、どのような特徴を持っているのかを学びます。もし、学習情報に猫の絵が全く含まれていなかったら、猫を描くことはできません。また、猫の絵が少ししか含まれていなかったら、猫の特徴を十分に捉えられず、上手に描くことが難しいでしょう。学習情報に含まれる猫の絵が多ければ多いほど、人工知能は猫の特徴をより深く理解し、様々な種類の猫の絵を描くことができるようになります。文章を作る人工知能であれば、大量の文章情報から、言葉のつながりや文法、言葉が持つ意味などを学習します。例えば、「おはようございます」や「こんにちは」といったあいさつは、どんな時に使われるのか、どのような言葉と組み合わせて使われるのかを学習情報から学びます。学習情報に多くのあいさつの例が含まれていれば、人工知能は自然で適切なあいさつを生成することができます。このように、学習情報は生成人工知能にとって、いわば教科書のようなものです。学習情報が豊富で質が高いほど、生成人工知能は多くのことを学び、より高度な能力を発揮することができます。生成人工知能がその能力を十分に発揮するための土台となる、非常に大切な要素なのです。

2024.11.26

機械学習

標本抽出の落とし穴：サンプリングバイアス

調べたい集団全体、つまり母集団から一部だけを選び出して調べることを標本調査と言います。この選び出す部分を標本と言いますが、標本調査を行う際に、選ばれた標本に偏りが出てしまうことをサンプリングバイアスと言います。本来、標本は母集団の特徴を縮小した鏡のように、母集団全体の性質をよく表している必要があります。しかし、サンプリングバイアスがあると、標本が母集団の一部を大きく見せすぎて、他の部分を小さく見せてしまい、母集団の真の姿を歪めて伝えてしまうのです。例えば、全国の小学生がどれくらいお菓子を食べているかを調べたいとします。もし、調査対象を都心部にある一部の小学校だけに絞ってしまうと、サンプリングバイアスが発生する可能性があります。都心部の子供たちは、地方の子供たちよりもお菓子を食べる機会が多いかもしれません。お菓子屋さんが近くにたくさんあったり、お小遣いを多くもらっていたりするからです。このような偏った標本から得られた結果は、全国の小学生全体の実態とはかけ離れたものになってしまうでしょう。地方の子供たちの生活様式やお菓子を食べる頻度が無視されているからです。つまり、一部のデータだけを見て全体を判断してしまう誤りが生じるのです。他にも、街頭インタビューで特定の時間や場所に限定して通行人に質問をする場合も、サンプリングバイアスが発生しやすい例です。平日の昼間に駅前でインタビューをすると、主に会社員や主婦層の意見が集まりがちです。学生や夜勤で働く人たちの意見は反映されにくく、結果として特定の属性の人たちの意見が過大に評価されてしまうのです。このようにサンプリングバイアスは、調査の信頼性を損なう大きな原因となります。調査を行う際には、母集団をよく理解し、偏りのない標本を選ぶよう心がけることが重要です。

2024.11.25

分析