外れ値:データ分析の落とし穴
AIを知りたい
先生、「外れ値」ってデータの中で変な値のことですよね?具体的にどういう値なんですか?
AIエンジニア
そうだね。「変な値」っていうのはいい表現だね。真の値から大きく外れている値のことを指すよ。例えば、クラスのテストの点数がほとんどみんな70点前後なのに、一人だけ10点だったとしよう。この10点が「外れ値」の可能性があるんだ。
AIを知りたい
なるほど。じゃあ、その10点はテストを受けていなかったとか、答案用紙を白紙で出したとか、そういう理由が分かれば「異常値」ってことですね?
AIエンジニア
その通り!理由が分かっている場合は「異常値」と呼ぶんだ。そして、外れ値は分析に大きな影響を与えるから、見つけることが大切なんだよ。なんでもかんでも消していいわけじゃないんだけどね。
外れ値とは。
人工知能にまつわる言葉である「外れ値」について説明します。外れ値とは、集めたデータの中で、真の値の推定値から大きく離れた値のことです。外れ値の中には、計測ミスや記入ミスなど、原因がはっきりしているものは「異常値」と呼ばれることもあります。外れ値は、分析に大きな影響を与えることがあるので、外れ値を見つけることが大切です。外れ値を見つける方法は、データの点一つ一つを調べる方法で、普通では考えられないようなデータ点を見つける時に使われます。判断方法としては、1. スミルノフ・グラブス検定を使う方法、2. 四分位範囲(IQR)を使う方法などがあります。外れ値への対策としては、異常値かどうかをよく考えること、計測ミスや入力ミスだと分かっているものは取り除くことが必要です。ただし、役に立つ外れ値もあるので、何でもかんでも取り除けば良いというわけではないことを覚えておきましょう。
外れ値とは
多くの数値が集まったとき、その集団から大きく外れた値を外れ値といいます。外れ値は、まるで大勢の列からぽつんと離れた迷子のような存在です。たとえば、学校のクラスで考えてみましょう。クラス全体の平均身長が160センチメートルだとすると、ほとんどの生徒の身長は160センチメートル前後でしょう。しかし、もし2メートルを超える生徒がいたらどうでしょうか。その生徒の身長は、他の生徒と比べて極端に高く、外れ値と見なされます。
外れ値は、データ全体の傾向を示す統計値に大きな影響を及ぼす可能性があります。たとえば、平均値は外れ値の影響を受けやすい代表的な指標です。先ほどの身長の例で考えると、2メートルを超える生徒がいることで、クラス全体の平均身長が実際よりも高くなってしまうかもしれません。他にも、標準偏差や分散といった、データのばらつき具合を示す統計量も、外れ値によって大きく変わることがあります。そのため、データ分析を行う際には、外れ値をどう扱うかが重要なポイントとなります。
では、なぜ外れ値が生じるのでしょうか。その原因は様々ですが、数値を入力するときのミスや、数値を測るときのミスといった誤りが原因となっている場合もあります。他に、データそのものの性質が他のデータと大きく異なる場合もあります。たとえば、ある商品の売上が急激に伸びたデータが外れ値として見つかったとします。これは、記録システムの誤りで実際には売上が伸びていないのかもしれませんし、あるいは特別な販促活動など、実際に売上が急増した原因があるのかもしれません。このように、外れ値が見つかった場合は、その原因を注意深く調べることが大切です。原因を特定することで、データ分析の結果をより正確に解釈できるようになります。
項目 | 説明 | 例 | 影響 | 原因 |
---|---|---|---|---|
外れ値 | 集団から大きく外れた値 | 平均身長160cmのクラスに2mの生徒がいる | 平均値、標準偏差、分散などの統計値に大きな影響 | 入力ミス、測定ミス、データの性質 |
外れ値の種類
はぐれものには、大きく分けて二つの種類があります。一つは、計り方や書き入れるときのミスなど、なぜそうなったのかはっきりしている「異常な値」です。体温計が壊れていて、熱が38度ではなく83度と記録されてしまったり、キーボードの打ち間違いで100円の商品が1000円と入力されてしまったりするのは、このような異常な値にあたります。このような値は、計り方や入力方法を改めることで防ぐことができます。
もう一つは、なぜそうなったのかわからないはぐれものです。これは、データそのものの性質が他とは大きく異なる場合に起こります。たとえば、ある地域での一世帯あたりの平均収入は500万円ですが、中にはたくさんの資産を持っている世帯もあり、その収入は数億円になることもあります。この場合、平均収入500万円というデータから大きく外れた数億円という値は、はぐれものとして扱われます。しかし、この値は単なるミスではなく、その地域の経済構造や資産分布を反映している可能性があります。また、新しい商品の売り上げ予測で、予想をはるかに超える大ヒット商品が出現した場合も、この種類の値に該当します。
はぐれものを分析するときは、まずそれが異常な値なのか、それともデータの性質によるものなのかを見分けることが大切です。原因がはっきりしている異常な値であれば、正しく直す、あるいは削除することでデータの正確さを高めることができます。一方、原因がわからないはぐれものは、データの背後に隠れている重要な要因を理解するための手がかりになることもあります。たとえば、大ヒット商品のデータからは、消費者の新しいニーズや市場の動向を読み解くことができるかもしれません。はぐれものは単なる邪魔者ではなく、貴重な情報源となる可能性を秘めているのです。
はぐれものの種類 | 原因 | 対策 | その他 |
---|---|---|---|
異常な値 | 計り方や書き入れるときのミス | 計り方や入力方法を改める | データの正確さを高めることができる |
データそのものの性質が他とは大きく異なる | 不明 | データの背後に隠れている重要な要因を理解するための手がかり | 新しいニーズや市場の動向を読み解くことができる可能性 |
外れ値を見つける方法
「外れ値」とは、他のデータから大きく離れた値のことで、データ分析を行う上で結果を歪めてしまう可能性があるため、注意深く扱う必要があります。外れ値を見つける方法には、様々なものがあります。
よく使われる方法の一つに「箱ひげ図」を使う方法があります。箱ひげ図は、データを視覚的に分かりやすく表した図です。この図では、データの真ん中の値、データの大部分が集まっている範囲、そして外れ値が一目で分かります。箱ひげ図を見ることで、データ全体の様子や、どれくらいデータがばらついているか、そして極端に大きな値や小さな値があるかどうかを簡単に理解できます。
もう一つ、よく使われる方法に「スミルノフ・グラブス検定」という統計的な方法があります。この方法は、データが左右対称な山のような形(正規分布)になっていることを前提として、外れ値があるかどうかを調べます。正規分布とは、データの多くが平均値付近に集まり、平均値から離れるほどデータの数が少なくなる分布のことです。スミルノフ・グラブス検定を使うことで、外れ値があるかないかを客観的に判断することができます。
「四分位範囲」を使って外れ値を見つける方法もあります。四分位範囲とは、データを小さい順に並べたときに、真ん中あたりのデータの範囲のことです。この範囲から大きく外れた値を外れ値と判断します。
このように、外れ値を見つける方法は複数あり、データの種類や分析の目的によって適切な方法を選ぶ必要があります。どの方法を使うか迷う場合は、複数の方法を試してみて、結果を比べてみるのも良いでしょう。
方法 | 説明 | 特徴 |
---|---|---|
箱ひげ図 | データを視覚的に表現し、中央値、データの範囲、外れ値を分かりやすく示す。 | 視覚的に理解しやすい、データ全体の分布を把握しやすい |
スミルノフ・グラブス検定 | 正規分布を前提として、統計的に外れ値を検定する。 | 客観的な判断が可能、正規分布のデータに適用可能 |
四分位範囲 | データを小さい順に並べ、中央あたりのデータの範囲から大きく外れた値を外れ値とする。 | 計算が容易 |
外れ値への対処法
資料を調べるとき、ときどき予想外の値が見つかることがあります。このような値を外れ値と呼びます。外れ値への対応は、調べたい内容や外れ値の種類によって変わってきます。まず、外れ値が書き間違いや入力間違いといった明らかに間違った値だとわかった場合は、値を直すか、調べるところから外してしまうのが正しいやり方です。例えば、年齢を尋ねる調査で間違った値が入力されていたり、実験の記録にミスがあった場合は、直すか消すことで調べた内容の正しさを高めることができます。しかし、外れ値が間違いではなく、調べたいものが本来持っている特徴を表している場合は、簡単にはずしてはいけません。例えば、ある商品の販売記録にとても高い値があったとします。これは特別な宣伝活動がうまくいった結果かもしれませんし、特定の買い手グループによる大量購入を示しているのかもしれません。こういった外れ値は、調べるところから外してしまうと、全体像がゆがんでしまうことがあります。また、外れ値が生じた理由が明らかでない場合もあります。例えば、ある人の健康診断結果の中に通常よりも高い数値が見つかったとします。これは一時的な体調の変化によるものかもしれませんし、生活習慣が影響しているのかもしれませんし、重大な病気の兆候かもしれません。このような場合、すぐに外れ値として処理するのではなく、追加の検査や医師との相談が必要になります。外れ値を扱うときは、なぜそのような値になったのかを注意深く考え、調べたい内容に合わせて適切な方法を選ぶ必要があります。たとえば、平均値を計算する際に外れ値の影響を小さくしたい場合は、中央値や最頻値といった他の代表値を使うことが有効です。また、外れ値を分析対象から完全に除外するのではなく、外れ値の影響を弱めるような統計手法を用いることもあります。いずれにしても、外れ値をどのように扱うかは、分析の目的とデータの特性を考慮して慎重に決定する必要があります。外れ値は必ずしも悪いものではなく、貴重な情報を含んでいる可能性もあることを忘れてはいけません。
外れ値の種類 | 対応 | 例 |
---|---|---|
明らかな間違い | 値を修正するか、分析から除外 | 年齢の入力ミス、実験記録のミス |
データの特性 | 安易に除外せず、理由を調査 | 特別なプロモーションによる売上増加、特定グループによる大量購入 |
原因不明 | 追加調査、専門家への相談 | 健康診断結果の異常値 |
外れ値への対応 | 方法 |
---|---|
平均値への影響を軽減 | 中央値、最頻値の使用 |
外れ値の影響を弱める | 特別な統計手法の適用 |
外れ値の重要性
データの分析を行う際、大部分のデータから大きく外れた値、いわゆる外れ値は、邪魔者扱いされることがよくあります。多くの人は、外れ値をデータの質を落とすノイズだと考え、分析の前に取り除いてしまうからです。確かに、外れ値は誤った測定や入力ミスなど、データの処理過程で生じたエラーを示している場合もあります。しかし、外れ値は必ずしも悪いものとは限りません。むしろ、データの中に隠された重要な情報を示す貴重な手がかりとなる場合もあるのです。
例えば、工場で製品を作る場面を考えてみましょう。製品の品質に関するデータを集めるとき、ほとんどのデータは一定の範囲に収まるでしょう。しかし、もし一部のデータがその範囲から大きく外れていた場合、それは一体何を意味するのでしょうか。もしかしたら、製造機械の不具合や、材料の質の低下といった、生産過程に潜む問題を知らせているのかもしれません。このような外れ値を見つけることで、問題の根本原因を早期に特定し、改善につなげることが可能になります。
また、販売促進の分野でも、外れ値は重要な役割を果たします。顧客の買い物に関するデータから外れ値を詳しく調べると、今まで気づかなかった顧客層を見つけたり、顧客の本当の望みをより深く理解したりすることに繋がります。例えば、ある商品を大量に購入する顧客がいるとします。この顧客はなぜこの商品を大量に購入するのでしょうか。その理由を探ることで、新たな販売戦略を立てるヒントが得られるかもしれません。
このように、外れ値は単なる雑音ではなく、データの背後に隠された重要な物語を語る手がかりとなります。外れ値を無視して取り除くのではなく、なぜそのような値になったのかを丁寧に調べることで、新しい発見や、事業を成功させる新たな機会に繋がる可能性を秘めているのです。
外れ値の捉え方 | 外れ値が示すもの | 具体例 | 外れ値への対応 |
---|---|---|---|
多くの場合、ノイズとして扱われ、分析前に除去される。 | データ処理過程でのエラー(誤った測定、入力ミスなど) | – | 除去 |
重要な情報を示す貴重な手がかり | データに隠された重要な情報 | 製造機械の不具合、材料の質の低下 | 問題の根本原因の早期特定と改善 |
– | 顧客の本当の望み、新しい顧客層 | ある商品を大量購入する顧客 | 新たな販売戦略 |