相関係数の基礎知識
AIを知りたい
先生、「ピアソンの積率相関係数」って、1とか0とか-1とか出てきますけど、これって何ですか?
AIエンジニア
良い質問だね。簡単に言うと、二つのものの関係の強さを表す数値だよ。例えば、アイスクリームの売上と気温の関係を考えてみよう。
AIを知りたい
アイスクリームと気温…ですか?
AIエンジニア
そう。気温が上がるとアイスクリームの売上も増えるよね? こういう関係を「正の相関」と言うんだ。ピアソンの積率相関係数は、この関係の強さを1から-1までの数字で表す尺度で、1に近いほど正の相関が強い、つまり気温が上がれば上がるほどアイスクリームの売上が増える関係が強いことを意味するんだよ。逆に、気温が下がるとアイスクリームの売上も減る関係は「負の相関」と言って、-1に近いほど関係が強い。そして、0に近い場合は二つのものの間に関係がないことを示すんだ。
ピアソンの積率相関係数とは。
「人工知能でよく使われる言葉、『ピアソンの積率相関係数』について説明します。これは、数学や統計学、機械学習で使われる、二つのものの関係の強さを表す数値です。この数値は、1から0を通り、-1までの範囲で表されます。1に近いほど『強い正の相関』と呼ばれ、二つのものが同じように変化する、つまり、一方が増えれば他方も増え、一方が減れば他方も減るという関係が強いことを意味します。例えば、0.3のように0に近づくほど、関係は弱くなります。0に近い数値は『相関なし』を意味し、二つのものの間に関係がないことを示します。つまり、一方が変化しても他方は影響を受けません。逆に、-1に近い数値は『強い負の相関』と呼ばれ、二つのものが反対向きに変化する、つまり、一方が増えれば他方は減り、一方が減れば他方は増えるという関係が強いことを意味します。」
相関係数とは
相関係数とは、二つのものの関係の強さを表す数値です。この数値は、必ず -1 から 1 までの範囲におさまります。1 に近づくほど、二つのものは同じように変化する、つまり正の相関が強いことを示します。例えば、木の高さとその木の葉の数を考えてみましょう。高い木ほど葉の数が多い傾向があるとすれば、木の高さと葉の数は正の相関があると言えます。相関係数が 1 に非常に近い値を示すでしょう。
逆に、-1 に近づくほど、二つのものは反対に変化する、つまり負の相関が強いことを示します。例えば、ある商品の値段とその商品の売れる数を考えてみましょう。値段が高くなればなるほど、売れる数は少なくなる傾向があります。これは負の相関の例で、相関係数は -1 に近い値を示します。
もし相関係数が 0 に近い場合は、二つのものの間に関係はほとんどないか、全くないことを意味します。例えば、ある人の靴のサイズと好きな音楽のジャンルには、おそらく関係がないと考えられます。このような場合、相関係数は 0 に近い値になるでしょう。
相関係数は、データの分析や将来の予測において非常に役立ちます。二つのものの関係性を数値で客観的に把握することで、物事の仕組みをより深く理解したり、将来どうなるかを予測したりすることが可能になります。例えば、気温とアイスクリームの売れる数の関係を調べ、強い正の相関があることが分かれば、気温が高い日はアイスクリームがたくさん売れると予測できます。このように、相関係数を理解することは、様々な場面で役立ちます。
相関係数の値 | 関係性 | 例 |
---|---|---|
1に近い | 正の相関(同じように変化) | 木の高さ & 葉の数 |
-1に近い | 負の相関(反対に変化) | 商品の値段 & 売れる数 |
0に近い | 無相関(関係がほとんどない) | 靴のサイズ & 好きな音楽のジャンル |
ピアソンの積率相関係数
ピアソンの積率相関係数は、様々な種類の相関係数のうち、最も広く知られ、使われている指標です。二つのものの間の関係の強さを測るものですが、「直線の関係」だけを測るという特徴があります。「直線の関係」とは、例えば片方のものの数値が大きくなると、もう片方の数値も一定の割合で大きくなる、もしくは小さくなる関係のことです。
この相関係数は、-1から1までの値で表されます。1に近いほど、二つのものは強い「正の直線の関係」を持っていることを示しています。つまり、一方が増えれば、もう一方も増える傾向が強いということです。逆に、-1に近いほど、二つのものは強い「負の直線の関係」を持っていることを示し、一方が増えればもう一方は減る傾向が強いことを意味します。そして、0に近い値は、二つのものの間に「直線の関係」は弱いか、もしくは全くないことを示します。
ピアソンの積率相関係数の重要な点は、「直線の関係」しか測れないということです。例えば、二つのものの関係が放物線のような曲線を描いている場合、たとえ二つのものに関係があったとしても、ピアソンの積率相関係数は0に近い値を示してしまうことがあります。これは、二つのものの間に全く関係がないという意味ではなく、「直線の関係」がないという意味です。ですから、ピアソンの積率相関係数を使う際には、二つのものが「直線の関係」を持っているかどうかをまず確認することが大切です。そうでないと、誤った解釈をしてしまう可能性があります。
相関係数の値 | 関係性 | 説明 |
---|---|---|
1に近い | 強い正の直線の関係 | 一方が増えれば、もう一方も増える |
-1に近い | 強い負の直線の関係 | 一方が増えれば、もう一方は減る |
0に近い | 直線の関係が弱い、または無い | 直線的な比例関係がない |
相関係数の解釈
相関係数を読むときには、数字の大きさだけでなく、プラスかマイナスかも合わせて考える必要があります。この数は二つのものの関係の強さと向きを表しています。
まず、数の大きさについて説明します。この大きさは0から1までの間の数で表され、1に近づくほど二つのものの関係は強いと見なせます。例えば、相関係数が0.8であれば、二つのものはかなり似た動きをすると考えられます。逆に、相関係数が0.1であれば、二つのものはほとんど関係がないと言えるでしょう。大まかな目安として、0.7以上は強い関係、0.4から0.7は中くらいの関係、0.2から0.4は弱い関係、0.2未満はほとんど関係がないと考えられています。ただし、この基準はあくまでも目安であり、場合によっては違った解釈をすることもあります。
次に、数のプラス、マイナスについて説明します。プラスの場合は、片方が増えるともう片方も増えるという関係を表します。例えば、気温が上がるとアイスクリームの売上も増えるといった関係です。これを正の相関と言います。逆にマイナスの場合は、片方が増えるともう片方は減るという関係を表します。例えば、練習量が増えると失敗する回数が減るといった関係です。これを負の相関と言います。
最後に、大切な注意点として、相関係数は二つのものの関係の強さを示すだけで、どちらかが原因でどちらかが結果であるといった因果関係を示すものではありません。例えば、アイスクリームの売上が増えたから気温が上がったわけではなく、気温が上がったからアイスクリームの売上が増えたと考えられます。相関係数が高いからといって、必ずしも因果関係があるとは限らないのです。
相関係数の大きさ | 関係の強さ | 例 |
---|---|---|
0.7以上 | 強い関係 | – |
0.4から0.7 | 中くらいの関係 | – |
0.2から0.4 | 弱い関係 | – |
0.2未満 | ほとんど関係がない | – |
相関係数の符号 | 関係性 | 例 |
---|---|---|
プラス | 正の相関 (片方が増えるともう片方も増える) |
気温が上がるとアイスクリームの売上も増える |
マイナス | 負の相関 (片方が増えるともう片方は減る) |
練習量が増えると失敗する回数が減る |
注意点: 相関係数は因果関係を示すものではありません。
相関係数の注意点
二つのものの関係の強さを調べる統計的な指標である相関係数。これはデータ分析でよく使われますが、いくつか注意すべき点があります。まず、極端な値、つまり外れ値の影響を受けやすいという点です。例えば、ほとんどのデータが密集しているところに、一つだけ大きく離れた値があると、相関係数の値が大きく変わってしまうことがあります。データ全体としては緩やかな関係があるように見えても、外れ値によって強い関係があるように見えてしまう、あるいはその逆が起こる可能性があります。ですから、相関係数を計算する前に、データの中に外れ値がないかを確認することが大切です。もし外れ値が見つかった場合は、それが測定ミスなどによるものなのか、それとも意味のあるデータなのかを注意深く検討する必要があります。
また、相関係数はデータ全体の傾向を表すものであり、個々のデータの関係を説明するものではありません。全体として右肩上がりの傾向が見られたとしても、個々のデータを見ると必ずしもその傾向に沿っていない場合もあります。相関係数は森全体の形を見るものであり、個々の木一本一本の形までは見ていないのです。個々のデータのばらつきも考慮しながら、相関係数を解釈する必要があります。
さらに重要な注意点として、相関係数は因果関係を示すものではないという点です。因果関係とは、ある事象が別の事象の原因となっている関係のことです。例えば、熱いお湯にティーバッグを入れるとお茶の色が変わるという場合、お湯にティーバッグを入れるという行為がお茶の色が変わる原因になっています。これは因果関係です。一方、相関係数は単に二つのものの間に関係があることを示すだけで、どちらが原因でどちらが結果かは分かりません。例えば、アイスクリームの売り上げと日傘の売り上げには正の相関があるかもしれません。暑くなるとアイスクリームも日傘もよく売れるからです。しかし、アイスクリームがよく売れることが日傘がよく売れる原因ではありませんし、その逆もまた然りです。このように、二つのものの間に相関関係があるからといって、因果関係があると考えるのは誤りです。相関関係を見つけた時は、他に共通の原因がないかをよく考える必要があります。
注意点 | 説明 |
---|---|
外れ値の影響 | 外れ値によって相関係数が大きく変わる可能性があるため、事前に外れ値の有無を確認し、適切な対処が必要。 |
個々のデータのばらつき | 相関係数はデータ全体の傾向を示すもので、個々のデータの関係を説明するものではないため、個々のデータのばらつきも考慮する必要がある。 |
因果関係と相関関係 | 相関関係は因果関係を示すものではない。相関関係があるからといって因果関係があると考えるのは誤りであり、他に共通の原因がないかを考える必要がある。 |
まとめ
二つのものの関係性を調べたい時、役に立つのがピアソンの積率相関係数です。これは、二つのものの間にどれくらい強い繋がりがあるのかを数値で表す方法です。数値は-1から1までの範囲で表され、1に近いほど正の相関が強く、-1に近いほど負の相関が強いことを示します。
例えば、気温とアイスクリームの売上の関係を考えてみましょう。気温が高い日ほどアイスクリームがよく売れると予想されます。これは正の相関です。もし相関係数が1に近い値を示せば、気温とアイスクリームの売上には強い正の相関があると言えるでしょう。反対に、厚着の枚数と気温の関係を考えてみます。気温が低い日ほど厚着をする枚数は増えるはずです。これは負の相関です。もし相関係数が-1に近い値を示せば、厚着の枚数と気温には強い負の相関があると言えるでしょう。
相関係数の絶対値は、二つのものの関係性の強さを示します。例えば、相関係数が0.8の場合は、0.2の場合よりも強い相関があることを意味します。相関係数の符号は、関係性の向きを示します。プラスの符号は正の相関、マイナスの符号は負の相関を表します。
しかし、相関係数を使う際には注意が必要です。一つ目は、極端な値(外れ値)の影響を受けやすいということです。例えば、ほとんどのデータは相関がないように見えても、一つだけ極端に異なる値があると、相関係数が大きく変わってしまう可能性があります。二つ目は、相関係数は二つのものの関係性を示すだけで、因果関係を示すわけではないということです。つまり、相関があるからといって、一方が他方の原因であるとは限りません。例えば、アイスクリームの売上と気温に強い正の相関があったとしても、アイスクリームが売れたから気温が上がったわけではないですし、その逆もまた然りです。
相関係数を正しく理解し、注意点を踏まえることで、データから有益な情報を読み解き、より良い判断をするための助けとなります。
相関係数 | 意味 | 例 |
---|---|---|
1に近い | 強い正の相関 | 気温が高いほどアイスクリームの売上高が高い |
-1に近い | 強い負の相関 | 気温が低いほど厚着の枚数が多い |
0に近い | 相関が弱い | – |
絶対値が大きい | 関係性が強い | 0.8は0.2より強い相関 |
プラスの符号 | 正の相関 | – |
マイナスの符号 | 負の相関 | – |
- 注意点
- 極端な値(外れ値)の影響を受けやすい
- 相関関係と因果関係は異なる