データ分析の基礎：検定とは

分析

2024.11.25

データ分析の基礎：検定とは

データ分析の基礎：検定とは

AIを知りたい

先生、「検定」ってよく聞くんですけど、推定とどう違うんですか？

AIエンジニア

いい質問だね。どちらもデータから何かを導き出す点は同じだけど、推定はデータに基づいて、例えばデータの平均値といった、まだ分かっていない数値を計算すること。一方、検定は、ある仮説が正しいかどうかをデータを使って判断することなんだ。

AIを知りたい

うーん、まだちょっとピンと来ないですね…。具体的に言うとどんな感じですか？

AIエンジニア

例えば、クラスの平均身長が160cmだと仮定しよう。推定では、実際にクラス全員の身長を測って、平均身長を計算する。検定では、最初に「平均身長は160cmだ」と仮定して、その仮定が正しいかどうかを、実際に測った身長データを使って確かめるんだ。

検定とは。

「人工知能にまつわる言葉、『検定』について説明します。検定とは、データについての仮説が本当に正しいのかどうかを確かめる作業です。具体的には、まず仮説を立て、実際に起きた結果を確率に基づいて検証し、結論を出します。結論を出す際には、『背理法』という考え方を使います。背理法とは、最初に仮説を立て、その仮説が正しいと考えた場合に矛盾が生じたら、最初の仮説は間違っていたと判断する方法です。似た言葉に『推定』がありますが、検定と推定は違います。推定では、データが何らかの分布に従っていると仮定し、その分布の特徴を表す数値を計算します。一方、検定では、分布の特徴を表す数値を先に仮説として設定し、その仮説が正しいかどうかをデータを使って判断します。さらに、データが何らかの分布に従うと仮定した場合、その分布の特徴を表す数値を計算するのが推定ですが、データが本当にその分布に従うかどうかを判断するのも検定の一つです（コロモゴロフスミノルフ検定）。

検定の考え方

検定とは、統計学で使われる手法で、ある仮説が実際に集めたデータと矛盾していないかを確かめるものです。簡単に言うと、今持っているデータから、最初に立てた仮説が正しいと言えるかどうかを判断する手続きです。

例として、ある工場で作られる商品の重さの平均が１００グラムだと仮定してみましょう。実際に作られた商品の重さを測り、その結果をもとに、最初の仮説（平均が１００グラム）が正しいか間違っているかを調べます。この調べ方は、確率という考え方に基づいて行います。もし仮説が正しいとした場合に、実際に観測されたデータが起こる確率がどれくらい低いかを計算します。もし、観測されたデータが仮説の下ではとても起こりにくい、つまり確率が非常に低いと判断された場合、最初の仮説は間違っているとして棄却（ききゃく）します。そうでない場合は、仮説は棄却されません。

例えば、１００グラムと仮定した商品の重さを１００個測った結果、平均が１０５グラムだったとします。もし、本当に平均が１００グラムであれば、１００個測って平均が１０５グラムになることは滅多に起こらないかもしれません。このような場合、最初の仮説（１００グラム）は疑わしく、棄却される可能性が高くなります。逆に、平均が１００．５グラムだった場合は、１００グラムという仮説とそれほど矛盾していないかもしれません。この場合、仮説は棄却されない可能性が高くなります。

検定で重要なのは、仮説が絶対に正しいか間違っているかを完全に決めるのではなく、データに基づいて確率的に判断するということです。仮説が棄却されなかったとしても、それは仮説が完全に正しいことを証明するのではなく、データと矛盾しないことを示しているに過ぎません。また、仮説が棄却された場合でも、それは仮説が完全に間違っていることを意味するのではなく、データと矛盾する可能性が高いことを示しているだけです。

項目	説明
検定の目的	データに基づいて、立てた仮説が正しいかどうかを確率的に判断する。
検定の手順	仮説を立てる（例：商品の平均重量は100グラム）データを収集する（例：実際に商品の重さを測る）仮説が正しいとした場合に、観測されたデータが起こる確率を計算する確率が非常に低い場合、仮説を棄却する
例	商品の平均重量が100グラムという仮説のもと、100個の重さを測った結果、平均が105グラムだった場合、仮説は棄却される可能性が高い。平均が100.5グラムだった場合、仮説は棄却されない可能性が高い。
注意点	仮説の棄却は、仮説が完全に間違っていることを意味するのではなく、データと矛盾する可能性が高いことを示している。仮説が棄却されなかったとしても、仮説が完全に正しいことを証明するのではなく、データと矛盾しないことを示している。

検定の手順

ある考えが本当に正しいと言えるのかどうかを確かめる検定は、いくつかの手順を踏んで行います。まず、最初に検証したい考え、つまり調べたい内容をはっきりとさせます。これを帰無仮説と呼び、例えば「この薬には効果がない」といった形で表します。この仮説は、反証するために立てられる仮説です。

次に、この帰無仮説が正しいと仮定した場合、集めたデータがどのようなばらつき方をするのかを考えます。例えば、薬の効果がないとすれば、薬を飲んだ人と飲んでいない人の間に大きな差は見られないはずです。この差のばらつき方を、統計学的な手法を用いてモデル化します。よく使われるモデルとして、正規分布と呼ばれるものがあります。山のような形で、平均値を中心に左右対称に広がる分布です。

そして、実際に集めたデータがこのモデルの中でどれくらい珍しい値なのかを計算します。この珍しさの度合いをp値と呼び、0から1までの値で表されます。p値が小さいほど、帰無仮説のもとでは珍しいデータだと言えます。例えば、薬の効果がないという仮説のもとで、薬を飲んだ人の症状が大きく改善した場合、これは珍しいデータとなり、p値は小さくなります。

このp値を、あらかじめ決めておいた基準値と比較します。この基準値を有意水準と呼び、一般的には5%や1%といった値が使われます。有意水準は、帰無仮説が正しいにもかかわらず、誤って帰無仮説を棄却してしまう確率の上限を表しています。つまり、5%の有意水準を用いる場合は、仮説が正しいにもかかわらず、誤って仮説を棄却してしまう確率を5%以下に抑えるということです。

最後に、計算したp値と有意水準を比較し、帰無仮説を棄却するかどうかの結論を出します。p値が有意水準よりも小さい場合、帰無仮説は棄却されます。例えば、p値が0.03で有意水準が0.05の場合は、p値が有意水準よりも小さいので、帰無仮説は棄却されます。つまり、「この薬には効果がない」という仮説は棄却され、「この薬には効果がある」という結論が導かれます。逆に、p値が有意水準よりも大きい場合は、帰無仮説は棄却されません。この場合、集まったデータは帰無仮説と矛盾しないため、「この薬には効果がない」とは言い切れませんが、効果があるとも言えません。さらなるデータの収集と分析が必要となります。

手順	内容	例
1. 帰無仮説の設定	検証したい考えを明確化し、帰無仮説として設定する。	この薬には効果がない
2. データのばらつきのモデル化	帰無仮説が正しいと仮定した場合のデータのばらつき方をモデル化する。	正規分布を用いて、薬の効果がない場合の薬を飲んだ人と飲んでいない人の差のばらつき方をモデル化
3. p値の計算	集めたデータがモデルの中でどれくらい珍しい値なのかを計算し、p値として表す。	薬の効果がないという仮説のもとで、薬を飲んだ人の症状が大きく改善した場合、p値は小さくなる
4. 有意水準の設定	帰無仮説が正しいにもかかわらず、誤って帰無仮説を棄却してしまう確率の上限として有意水準を設定する。	5%や1%
5. 帰無仮説の棄却/採択	p値と有意水準を比較し、帰無仮説を棄却するかどうかの結論を出す。	p値が0.03で有意水準が0.05の場合は、帰無仮説は棄却される

背理法による検証

背理法は、ある考えが正しいことを証明するために、あえてその考えの反対を仮定し、そこから矛盾点を導き出すことで、最初の考えが正しかったと示す方法です。たとえば、ある友人が「明日は雨が降る」と言ったとします。この言葉を確かめるために、背理法を用いて「明日は雨が降らない」と仮定してみましょう。もし本当に雨が降らないなら、天気予報は晴れか曇りでしょうし、傘を持って出かける人もいないはずです。しかし、もし明日、土砂降りの雨になり、多くの人が傘をさしているのを目撃したら、最初の仮定「明日は雨が降らない」は明らかに間違っていたことになります。この矛盾から、友人の「明日は雨が降る」という言葉が正しかったと結論づけられます。

統計的な検証でも、この背理法と同じ考え方が使われています。検証したい仮説を「帰無仮説」と呼びます。この帰無仮説が正しいと仮定し、そこから得られる結果と、実際に観察された結果を比較します。もし観察された結果が、帰無仮説が正しいと仮定した場合にとても起こりにくいことであれば、最初の仮定である帰無仮説は間違っていたと判断します。これを「帰無仮説を棄却する」と言います。

例えば、あるコインが表と裏が出る確率が等しいと仮定します。これが帰無仮説です。このコインを100回投げた結果、95回表が出たとします。もし本当にコインが公平なら、100回中95回も表が出ることは非常にまれです。つまり、観察された結果は帰無仮説と矛盾します。この矛盾から、「コインは公平である」という帰無仮説は棄却され、「コインは公平ではない」と結論づけられます。

ただし、観察された結果が帰無仮説と矛盾しない場合、帰無仮説を棄却することはできません。これは、仮説が正しいと証明されたわけではなく、ただ単に、そのデータを基に判断した結果、仮説を捨てるほどの確かな証拠が見つからなかったという意味です。例えるなら、裁判で無罪判決が出ても、本当に無実であることが証明されたわけではなく、有罪と判断できるだけの証拠がなかった、というのと同じです。

	日常生活の例	統計的検証の例
考え方	背理法	帰無仮説を使った統計的検証
最初の仮定	明日は雨が降らない	コインは公平である（表と裏が出る確率は等しい）
矛盾点を探すための行動	明日の天気と人々の行動を観察する	コインを100回投げる
観察結果	土砂降りの雨で多くの人が傘をさしている	100回中95回表が出る
結論	最初の仮定（明日は雨が降らない）は矛盾するため、明日は雨が降ると結論付ける	観察結果は最初の仮定（コインは公平）と矛盾するため、帰無仮説を棄却し、コインは公平ではないと結論付ける
矛盾しない場合	N/A	帰無仮説は棄却されない。ただし、仮説が正しいと証明されたわけではない。

推定との比較

統計学において、推定と検定はどちらもデータに基づいて母集団の特徴を明らかにするための重要な手法ですが、その目的や方法は大きく異なります。推定は、標本データから母集団の特性値を推測することを目的としています。例えば、ある商品の平均重量や不良率といった数値を、収集したデータから推測します。推定には、点推定と区間推定という二つの方法があります。点推定とは、母集団の特性値を一つの値で推測する方法です。例えば、標本データの平均値を母集団の平均値の推定値として用いるといった具合です。一方、区間推定とは、母集団の特性値が含まれるであろう範囲を推定する方法です。真の値が95%の確率で含まれる範囲を計算するといった手法が用いられます。

これに対し、検定はあらかじめ立てた仮説がデータと矛盾するかどうかを検証することを目的としています。例えば、「この商品の平均重量は100グラムである」という仮説を検証したい場合、収集したデータを用いてこの仮説が正しいかどうかを判断します。この際、p値と呼ばれる指標を用います。p値は、仮説が正しいと仮定した場合に、観測されたデータと同じか、それより極端なデータが得られる確率を表します。p値が小さい場合、仮説とデータが矛盾していると考え、仮説を棄却します。逆に、p値が大きい場合、仮説とデータは矛盾していないと考え、仮説を採択します。つまり、推定は母集団の値を推測することに焦点を当てているのに対し、検定は仮説の真偽を検証することに焦点を当てていると言えるでしょう。両者は統計的推論を行う上で欠かせない手法であり、データ分析の様々な場面で活用されています。状況に応じて適切な手法を選択することが重要です。

項目	推定	検定
目的	標本データから母集団の特性値を推測する	あらかじめ立てた仮説がデータと矛盾するかどうかを検証する
方法	点推定（一つの値で推測）区間推定（母集団の特性値が含まれるであろう範囲を推定）	p値を用いて仮説の真偽を判断
例	商品の平均重量や不良率をデータから推測	「商品の平均重量は100グラムである」という仮説を検証
焦点	母集団の値の推測	仮説の真偽の検証

様々な検定手法

統計的仮説検定は、データに基づいてある仮説が正しいかどうかを検証するための手法です。検証したい内容やデータの特性によって、様々な検定手法を使い分ける必要があります。代表的な検定手法をいくつか紹介します。

まず、２つの集団の平均値に違いがあるかを調べたい場合は、t検定が用いられます。例えば、新しい肥料を使った場合と使わなかった場合で、作物の収量に差があるかを検証する際に利用できます。t検定は、２つの集団のデータが正規分布に従うことを前提としています。

３つ以上の集団の平均値を比較したい場合は、分散分析を用います。例えば、異なる種類の肥料をそれぞれ使った場合の作物の収量に差があるかを検証する際に利用できます。分散分析も、各集団のデータが正規分布に従うことを前提としています。

２つの変数間に関係があるかを調べたい場合は、カイ二乗検定が有効です。例えば、喫煙習慣と肺がんの発症に関係があるかを検証する際に利用できます。カイ二乗検定は、データが名義尺度や順序尺度の場合に適用できます。

２つの変数の間の直線的な関係の強さを知りたい場合は、相関係数を用います。例えば、気温とアイスクリームの売上高の関係を調べたい場合に利用できます。相関係数は、-1から1までの値を取り、1に近いほど正の相関が強く、-1に近いほど負の相関が強いことを示します。０に近い場合は、相関が弱いと言えます。

これらの検定手法は、それぞれ異なる前提条件や適用範囲を持っています。誤った検定手法を用いると、間違った結論を導き出してしまう可能性があります。検定を行う際には、データの性質や検証したい仮説をよく理解し、適切な検定手法を選択することが非常に重要です。目的やデータに合わせて適切な手法を選ぶことで、より確かな結論を得ることが可能になります。

検定手法	目的	例	データの特性
t検定	2つの集団の平均値の差を調べる	新しい肥料を使った場合と使わなかった場合の作物の収量の差	正規分布
分散分析	3つ以上の集団の平均値の差を調べる	異なる種類の肥料を使った場合の作物の収量の差	正規分布
カイ二乗検定	2つの変数の関係を調べる	喫煙習慣と肺がん発症の関係	名義尺度、順序尺度
相関係数	2つの変数の直線的な関係の強さを調べる	気温とアイスクリーム売上高の関係	–

分布の適合度検定

集まったデータが、ある特定の確率分布に従っているかどうかを確かめる統計的な方法を、分布の適合度検定と言います。これは、データ分析の土台となる大切な作業です。なぜなら、分析手法の多くは、データがある特定の分布に従うことを前提としているからです。もし、データが前提とする分布と違っていれば、誤った結論を導きかねません。

例えば、ある工場で作られたネジの直径のばらつき具合を調べたいとします。もし、このばらつきが正規分布に従うと仮定できれば、平均値や標準偏差といった統計量を使って、品質管理を行うことができます。しかし、実際に集めたデータが正規分布に従っていなければ、これらの統計量は意味をなさなくなり、品質管理も正しく行えません。

分布の適合度検定を行うには、様々な方法があります。よく使われる方法の一つに、コロモゴロフ・スミルノフ検定があります。これは、データから推定した累積分布関数と、比較対象となる理論的な累積分布関数の差を調べ、その差が統計的に有意かどうかを判断する検定です。簡単に言うと、データの分布の形と、想定する分布の形がどれくらい違うかを評価する検定です。

もう一つ、よく使われる方法として、シャピロ・ウィルク検定があります。これは、主に正規分布かどうかを確かめるために使われます。この検定では、データの値を特殊な方法で変換し、その変換後の値を使って検定統計量を計算します。

これらの検定で、データが想定した分布に従わないと判断された場合は、分析方法を見直す必要があります。例えば、別の種類の分布を仮定したり、分布を仮定しないノンパラメトリックな手法を用いたりする必要があるでしょう。このように、分布の適合度検定は、適切なデータ分析を行うための最初の、そして重要なステップと言えます。

検定名	目的	説明
コロモゴロフ・スミルノフ検定	分布の適合度	データから推定した累積分布関数と、比較対象となる理論的な累積分布関数の差を調べ、その差が統計的に有意かどうかを判断する。
シャピロ・ウィルク検定	正規分布の適合度	データの値を特殊な方法で変換し、その変換後の値を使って検定統計量を計算する。主に正規分布かどうかを確かめるために使用される。