データ分析の基礎:検定とは
検定とは、統計学で使われる手法で、ある仮説が実際に集めたデータと矛盾していないかを確かめるものです。簡単に言うと、今持っているデータから、最初に立てた仮説が正しいと言えるかどうかを判断する手続きです。
例として、ある工場で作られる商品の重さの平均が100グラムだと仮定してみましょう。実際に作られた商品の重さを測り、その結果をもとに、最初の仮説(平均が100グラム)が正しいか間違っているかを調べます。この調べ方は、確率という考え方に基づいて行います。もし仮説が正しいとした場合に、実際に観測されたデータが起こる確率がどれくらい低いかを計算します。もし、観測されたデータが仮説の下ではとても起こりにくい、つまり確率が非常に低いと判断された場合、最初の仮説は間違っているとして棄却(ききゃく)します。そうでない場合は、仮説は棄却されません。
例えば、100グラムと仮定した商品の重さを100個測った結果、平均が105グラムだったとします。もし、本当に平均が100グラムであれば、100個測って平均が105グラムになることは滅多に起こらないかもしれません。このような場合、最初の仮説(100グラム)は疑わしく、棄却される可能性が高くなります。逆に、平均が100.5グラムだった場合は、100グラムという仮説とそれほど矛盾していないかもしれません。この場合、仮説は棄却されない可能性が高くなります。
検定で重要なのは、仮説が絶対に正しいか間違っているかを完全に決めるのではなく、データに基づいて確率的に判断するということです。仮説が棄却されなかったとしても、それは仮説が完全に正しいことを証明するのではなく、データと矛盾しないことを示しているに過ぎません。また、仮説が棄却された場合でも、それは仮説が完全に間違っていることを意味するのではなく、データと矛盾する可能性が高いことを示しているだけです。