198 CORRELAÇÃO E REGRESSÃO
Ora, a primeira soma de quadrados mede a variação total de Y independentemente
de x, a segunda soma de quadrados mede a variação residual e a terceira, conforme
já mencionado em (a), mede o desvio da reta de mínimos quadrados em relação a
y. Esse desvio pode ser entendido como a parcela da variação total de Y que é
explicada pela reta de mínimos quadrados. A parcela restante diz respeito à variação
residual, cuja explicação fica por conta do acaso, ou, se quiserem, de causas não-
assinaláveis.
A relação (8.31) é de grande importância, pois mostra como a variação total,
expressa pela soma de quadrados S.Y.Y, pode ser decomposta nas duas parcelas do
segundo membro, já devidamente comentadas.
A Fig. 8.14 ilustra dois casos extremos, de boa e má regressão, em função de
como essa subdivisão da soma de quadrados total se verifica. No primeiro caso,
praticamente toda a variação total de Y é devida à existência de uma regressão
linear muito bem caracterizada, restando uma parcela ínfima de variação residual.
No segundo caso, de uma regressão que não deve ser considerada, a variação
residual é da mesma ordem de grandeza da variação total. Vemos, pois, que a
qualidade da regressão está diretamente ligada à maneira como se dá a partição da
soma de quadrados total em suas duas parcelas, conforme a expressão (8.31).
d) Podemos desejar saber quanto representa proporcionalmente a parcela da variação
total de Y que é explicada pela reta de regressão. Para tanto, dividimos a soma de
quadrados referente à parcela de variação explicada, pela soma de quadrados to-
tal. Mas, tendo em vista o resultado (8.28), podemos escrever
l(]'i -J)^2 b · Sxy
l(Yi -J)2 = Syy
Lembrando agora (8.18) e a expressão (8.3) para o coeficiente de correlação li-
near de Pearson, temos
(8.32)
y y
/\
o
Figura 8.14 Boa e má regressão.