決定係数R2:モデルの良さを測る
決定係数とは、統計の分野、特に回帰分析と呼ばれる手法において、作成した予測モデルの当てはまりの良さを評価するための指標です。この指標はよくRの2乗(R二乗)とも呼ばれ、一般的にはR2という記号で表されます。
回帰分析とは、ある値と別の値の関係性を数式で表す分析手法のことです。例えば、商品の広告費と売上の関係や、気温とアイスクリームの売上の関係などを分析するために用いられます。これらの関係性を数式で表すことで、将来の売上を予測したり、最適な広告費を決定したりすることが可能になります。
決定係数は、0から1までの値を取り、1に近いほどモデルが実際のデータによく合致していることを示します。仮に決定係数が1だった場合、モデルはデータのばらつきを完全に説明できている、つまり、予測が完璧であることを意味します。逆に決定係数が0に近い場合、モデルはデータのばらつきをほとんど説明できていないことを意味し、予測の精度は低いと言えます。
具体的に説明するために、商品の広告費と売上の関係を分析したとしましょう。もしこの分析で得られたモデルの決定係数が0.8だった場合、売上のばらつきの80%は広告費によって説明できるということを意味します。残りの20%は、広告費以外の要因、例えば景気の動向や競合他社の状況、商品の品質といった様々な要因によるものと考えられます。
決定係数は、モデルの良さを判断する上で重要な指標ですが、単独で判断材料とするのではなく、他の指標と合わせて総合的に判断することが大切です。また、決定係数はモデルが複雑になるほど高くなる傾向があるため、モデルの複雑さと決定係数のバランスを考慮する必要があります。複雑すぎるモデルは、一見するとデータによく合致しているように見えますが、将来の予測精度が低い可能性があるため注意が必要です。