中央値:データの中心を掴む
AIを知りたい
先生、「中央値」って、平均と同じ意味ですか?
AIエンジニア
いい質問だね。似ているけれど、少し違うんだよ。たとえば、1, 2, 3, 4, 10 という数字があったとき、平均値は全部足して5で割るから4になるよね。中央値は、数字を小さい順に並べた時に真ん中にくる値のことだから、この場合は3になるんだ。
AIを知りたい
あ、そうなんですね。じゃあ、たくさんの人が100円ずつ持っていて、一人だけ100万円持っている場合だと、平均値はすごく高くなりますが、中央値は100円のままですね。
AIエンジニア
その通り!極端に大きな値や小さな値がある場合、中央値は平均値よりも、データの全体的な様子を正しく表してくれることが多いんだ。
中央値とは。
人工知能に関わる言葉である「中央値」について説明します。中央値とは、数学、統計学、機械学習で使われる、データの中心的な値を示すものです。いわゆる真ん中の値のことです。ただし、ここでいう平均値は、全部の値を足して、値の個数で割った値のことを指します。この平均値は、相加平均とも呼ばれます。
中央値とは
真ん中の値のことです。データの大きさの順に並べたときに、ちょうど真ん中にあたる値のことです。中央値は、データの中心的な傾向を示す指標のひとつであり、平均値とともに使われることがよくあります。
データの数が奇数のときは、真ん中の値がそのまま中央値になります。たとえば、1、3、5、7、9という5つのデータがあったとします。これらのデータを小さい順に並べると、1、3、5、7、9となります。このとき、真ん中の値は5なので、中央値は5となります。
一方、データの数が偶数のときは、真ん中の2つの値の平均値を中央値とします。たとえば、1、3、5、7という4つのデータがあったとします。これらのデータを小さい順に並べると、1、3、5、7となります。このとき、真ん中の2つの値は3と5です。これらの平均値は(3+5)÷2=4 なので、中央値は4となります。
中央値を使う利点は、極端に大きい値や小さい値の影響を受けにくいことです。たとえば、1、2、3、4、100というデータがあったとします。このデータの平均値は22ですが、100という極端に大きい値に引っ張られています。一方、中央値は3なので、100という値の影響をあまり受けていません。このように、一部の極端な値に影響されにくい指標を求めたい場合は、中央値が役立ちます。
まとめると、中央値はデータを大きさの順に並べたときの真ん中の値です。データの数が奇数の場合は真ん中の値、偶数の場合は真ん中2つの値の平均値を中央値とします。中央値は、平均値と並んでデータの中心的な傾向を示す指標としてよく用いられ、極端な値の影響を受けにくいという特徴があります。
データ数 | 中央値の求め方 | 例 | 中央値 |
---|---|---|---|
奇数 | 真ん中の値 | 1, 3, 5, 7, 9 | 5 |
偶数 | 真ん中2つの値の平均値 | 1, 3, 5, 7 | 4 |
中央値の利点 | 例 | 平均値 | 中央値 |
---|---|---|---|
極端に大きい値や小さい値の影響を受けにくい | 1, 2, 3, 4, 100 | 22 | 3 |
平均値との違い
データの中心を捉えるための計算方法には、いくつか種類があります。よく知られているものに平均値と中央値があり、どちらもデータの傾向を把握するのに役立ちますが、その計算方法や特徴には違いがあります。
平均値は、全てのデータの値を合計し、データの個数で割ることで求めます。これは、全体を均一に分けると一人あたりどれくらいになるか、という考え方に基づいています。例えば、5人の子供の年齢が3歳、5歳、4歳、6歳、5歳だった場合、合計年齢は23歳で、これを人数の5で割ると平均年齢は4.6歳となります。このように、平均値は全てのデータの値を考慮するため、データ全体の様子を捉える指標として広く使われています。
一方、中央値はデータの大小関係だけに注目し、値の大きさそのものには影響を受けません。データを小さい順に並べ替えたときに、ちょうど真ん中に位置する値が中央値です。先ほどの子供の年齢の例でいえば、データを小さい順に並べ替えると3歳、4歳、5歳、5歳、6歳となり、真ん中の値は5歳なので、中央値は5歳となります。データの数が偶数の場合、中央に近い二つの値の平均を中央値とします。例えば、データが3歳、4歳、5歳、6歳の場合、中央値は4歳と5歳の平均である4.5歳となります。
平均値は全てのデータの値を使うため、極端に大きい値や小さい値(外れ値)の影響を受けやすいという特徴があります。例えば、4人の年収が500万円、600万円、700万円、そして億万長者が一人いて10億円だったとします。この場合、平均年収は約2億2150万円となり、ほとんどの人の年収とかけ離れた値になってしまいます。一方、中央値は600万円と700万円の平均である650万円となり、外れ値の影響を受けずに、大多数の人の年収に近い値を示しています。このように、外れ値の影響を受けにくい点が中央値の大きな利点と言えるでしょう。
項目 | 平均値 | 中央値 |
---|---|---|
計算方法 | 全データの合計 ÷ データの個数 | データを小さい順に並べ、中央の値 (データ数が偶数の場合は中央2つの値の平均) |
特徴 | 全データの影響を受けるため、外れ値の影響を受けやすい。 | データの大小関係のみで決定されるため、外れ値の影響を受けにくい。 |
例:3, 4, 5, 5, 6 | (3+4+5+5+6) ÷ 5 = 4.6 | 5 |
例:3, 4, 5, 6 | (3+4+5+6) ÷ 4 = 4.5 | (4+5) ÷ 2 = 4.5 |
例:500万, 600万, 700万, 10億 | 約2億2150万 | (600万+700万) ÷ 2 = 650万 |
中央値の活用例
中央値は、平均値とは異なり、極端な値の影響を受けにくいという特徴があります。そのため、様々な分野で活用されています。
例えば、所得の中心的な傾向を把握したい場合を考えてみましょう。一部の超高額所得者が存在すると、平均所得はこれらの値に引っ張られて高くなってしまい、実態を反映しなくなってしまいます。このような場合、中央値を用いることで、より多くの人の所得に近い値を把握することができます。中央値所得は、所得を低い順に並べた時にちょうど真ん中に位置する人の所得を表すため、一部の高所得者に影響されることなく、所得の中心傾向を示す指標として有効です。
また、不動産価格や株価といった、価格の分布が歪んでいるデータにも中央値は役立ちます。価格帯が大きく異なる物件が混在している場合、平均価格では少数の高額物件に引きずられてしまう可能性があります。しかし、中央値を用いれば、高額物件に左右されることなく、より中心的な価格を把握できます。
さらに、製品の寿命や試験の点数などにも中央値は活用できます。例えば、新製品の寿命を調べる試験で、たまたま初期不良品がいくつか出てしまったとします。これらの製品の寿命は極端に短いため、平均寿命は低く出てしまいます。しかし、中央値を用いれば、これらの初期不良による影響を抑え、製品の寿命の中心的な値を把握することが可能です。このように、中央値は、データの中心傾向をより正確に把握するための有用な指標と言えるでしょう。
場面 | 平均値の問題点 | 中央値の利点 |
---|---|---|
所得 | 超高額所得者に引っ張られ、実態を反映しない | 多くの人の所得に近い値を把握できる |
不動産価格・株価 | 少数の高額物件に引きずられる | 高額物件に左右されず、中心的な価格を把握できる |
製品の寿命・試験の点数 | 初期不良品などの極端な値に影響される | 極端な値の影響を抑え、中心的な値を把握できる |
中央値の計算方法
中央値とは、データを大きさの順に並べた時に、ちょうど真ん中に位置する値のことです。言い換えると、データ全体を半分に分割する値であり、データの分布の中心傾向を知る上で重要な指標の一つです。
中央値を求めるには、まず全てのデータを小さい順に並べ替える必要があります。この作業によって、データの分布構造を把握しやすくなります。
データの個数が奇数の場合、中央値は簡単に求まります。例えば、1、3、5、7、9のように五つのデータがある場合、真ん中の三番目の値である5が中央値となります。これは、五つのデータを小さい順に並べた時に、5よりも小さい値が二つ(1と3)、5よりも大きい値が二つ(7と9)あるため、5がちょうど真ん中に位置する値となるからです。一般的に、データの個数が奇数の場合、(データの個数+1)÷2番目の値が中央値となります。
一方、データの個数が偶数の場合、中央値の計算は少し異なります。例えば、1、3、5、7のように四つのデータがある場合、真ん中の値は二つ存在します。この場合、二番目の値である3と三番目の値である5の平均値を中央値とします。3と5の平均値は(3+5)÷2=4となるため、この場合の中央値は4となります。一般的に、データの個数が偶数の場合、データの個数を二で割った番目の値と、それに一つ加えた番目の値の平均値が中央値となります。
このように、中央値はデータの個数が奇数か偶数かによって計算方法が少し異なりますが、いずれの場合もデータを小さい順に並べ替えることが重要です。中央値は、平均値と異なり、極端に大きい値や小さい値の影響を受けにくいという特徴があります。そのため、データの中に外れ値が含まれている場合でも、中央値はデータの中心傾向を正しく表すことができます。
データの個数 | 中央値の求め方 | 例 | 計算式 |
---|---|---|---|
奇数 | (データの個数+1)÷2番目の値 | 1, 3, 5, 7, 9 中央値:5 |
(5 + 1) ÷ 2 = 3番目の値 |
偶数 | データの個数を二で割った番目の値と、それに一つ加えた番目の値の平均値 | 1, 3, 5, 7 中央値:4 |
(3 + 5) ÷ 2 = 4 |
中央値のまとめ
真ん中の値、中央値についてまとめます。中央値は、データの真ん中に位置する値です。データを大きさの順に並べたときに、ちょうど真ん中にくる値のことです。データの数が奇数の場合は、真ん中の値がそのまま中央値となります。例えば、1、3、5、7、9というデータの場合、中央値は5です。データの数が偶数の場合は、真ん中の2つの値の平均が中央値となります。例えば、2、4、6、8というデータの場合、中央値は4と6の平均値である5です。
中央値は、データの中心的な傾向を示す値として使われます。平均値とよく似た値ですが、中央値には平均値と比べて大きな違いがあります。それは、極端に大きな値や小さな値に影響を受けにくいということです。例えば、10人の収入を調べたところ、9人が300万円、1人が3億円だったとします。この場合、平均値は3270万円になりますが、中央値は300万円です。平均値は、億万長者1人の収入に大きく引っ張られていますが、中央値は残りの9人の収入とほぼ同じ値になっています。このように、一部の極端な値に影響を受けにくいことが中央値のメリットです。
中央値は、収入や住宅価格といった、一部の人に極端な値があるデータに使うと、より実態に近い値を示すことができます。平均値だけでは、データの全体像を正しく捉えられない場合があるため、中央値と合わせて見ることで、データの特徴をより深く理解することができます。データの分布が左右対称に近い場合は、平均値と中央値はほぼ同じ値になります。しかし、データの分布が偏っている場合は、平均値と中央値に大きな差が出ることがあります。このような場合は、データの分布の形に合わせて、平均値と中央値のどちらを使うか、あるいは両方使うかを判断する必要があります。
項目 | 説明 | 例 |
---|---|---|
中央値の定義 | データを大きさの順に並べたときに、ちょうど真ん中にくる値。 | |
データ数が奇数の場合 | 真ん中の値が中央値 | 1, 3, 5, 7, 9 の中央値は 5 |
データ数が偶数の場合 | 真ん中の2つの値の平均が中央値 | 2, 4, 6, 8 の中央値は (4+6)/2 = 5 |
中央値の特徴 | 極端に大きな値や小さな値に影響を受けにくい | 収入例:9人が300万円、1人が3億円の場合 平均値: 3270万円 中央値: 300万円 |
中央値のメリット | 一部の極端な値に影響を受けにくい | |
中央値の使いどころ | 収入や住宅価格など、一部の人に極端な値があるデータ | |
平均値と中央値の関係 | データの分布が左右対称に近い場合は、平均値と中央値はほぼ同じ値になる。 データの分布が偏っている場合は、平均値と中央値に大きな差が出ることがある。 |