Explained variance

記事数:(1)

機械学習

説明分散:モデルの性能評価

説明分散とは、統計学や機械学習といった分野で、作成した予測模型がどれほど観測データのばらつき具合を説明できるかを示す指標です。言い換えれば、模型が予想した値が、実際の値のばらつきをどの程度捉えているかを数値で表したものです。この指標は、模型の性能評価によく使われます。 たとえば、株価を予想する模型を作ったとします。株価は毎日変動しますが、この変動の度合いをばらつきと捉えます。もし株価のばらつきが全くないとすれば、株価は毎日同じ値で変動がありません。しかし実際には株価は変動するため、ばらつきが生じます。作った模型が、この株価のばらつきをどれほど説明できるか、を数値化したものが説明分散です。 説明分散の値は0から1の間で表されます。1に近いほど、模型がデータの変動をよく説明できている、つまり性能が良いと判断できます。逆に0に近い場合は、模型がデータの変動をあまり説明できていない、つまり性能が良くないと判断できます。もし説明分散が1だとすれば、模型はデータの変動を完全に説明できており、完璧な予想ができることを意味します。しかし現実のデータでは、説明分散が1になることはほぼありません。 説明分散が高いということは、模型がデータの特徴を良く捉え、正確な予想を行える可能性が高いことを示します。例えば、株価予想模型で説明分散が高い場合、その模型は株価の変動をよく予想できると考えられます。逆に説明分散が低い場合、株価の変動をあまり予想できていないと考えられます。ですから、説明分散は模型の良し悪しを判断する重要な指標の一つと言えるでしょう。