220 CORRELAÇÃO E REGRESSÃO
A diferença dessa quantidade para com SY.Y é a soma de quadrados residual, cujo
correspondente número de graus de liberdade é n - (k + 1) = n -k -1, pois k + 1 coeficientes
do modelo terão sido estimados a partir dos resultados amostrais. O número de graus de
liberdade correspondente à variação explicada é k e a condição de validade da propriedade
vista em 8.1.1 subsiste mais uma vez. Isso permite realizar a Análise de Variância conforme
indicado no quadro da Tab. 8.14, de maneira semelhante às anteriores.
Por outro lado, o princípio da análise de melhoria visto em 8.8.2 pode também ser
aplicado ao caso da regressão múltipla. De fato, é comum encontrarmos problemas em que
uma determinada variável de interesse Y, considerada como a variável dependente no estudo
de regressão, está provavelmente correlacionada com diversas variáveis consideradas
independentes Xi, X 2 , ... , Xk.
Admitindo-se que seja um caso de regressão linear múltipla, pode-se então utilizar um
procedimento iterativo de inclusão sucessiva de variáveis no modelo, até que a inclusão de
novas variáveis não contribua significativamente para melhorar o ajuste. O procedimento
para tal é semelhante ao visto em 8.8.2 para a determinação do grau do polinômio em uma
regressão a duas variáveis[^31 l, e não julgamos necessário repeti-lo. Para a solução desse
problema, diversos procedimentos têm sido desenvolvidos, incluindo os necessários
programas de computador, devido ao volume de cálculo envolvido. Drapper & Smith, na
Ref. 7, recomendam a utilização do processo stepwise, em que são incluídas suces-sivamente
no modelo as variáveis independentes mais fortemente correlacionadas com Y, sendo feita,
após cada inclusão, uma análise para verificar se alguma variável já anteriormente incluída
não deva ser descartada. Dessa forma, procura-se chegar a uma equação que represente
bem o fenômeno sem ser sobrecarregada pela presença de variáveis que não contribuem
significativamente para melhor explicá-lo. Tais variáveis são, em geral, fortemente
correlacionadas com alguma outra que está incorporada à equação de regressão, trazendo,
portanto, pouca contribuição no sentido de aprimorar o modelo.
1 'labela8.13 Análise de Variância aplicada à regressão linear múltipla
Fonte de Soma de Graus de Quadrado F
variação quadrados liberdade médio F a
Devido à
'2:.t1 bis!Y k
'2:.t1 bis!Y G) F= G)
regressão k =1 s 2 Fk, n- k-1, a
M
Residual SQM = s).Y -I}=1 bi s!Y n-k-1 SM^2 =---SQM
n-k-1
Total SY.Y n-1
Exemplo
..... ~
Testar, pelã Análise de Variância, a significância da equação de regressão li-
near míiltipla obtida no exemplo apresentado em 8. 7.
l^31 l Conforme já foi dito, podemos, sob certas condições, considerar os problemas de regressão polinomial e
linear múltipla como um só, bastando, para tanto, considerar x 1 = x, x 2 = x2, ... , Xk = xk. A diferença
principal, no que diz respeito à aplicação de uma análise de melhoria, está no fato de que, no caso da
regressão polinomial, já temos uma ordem natural para efeito de implementação do modelo, o que não
acontece no caso da regressão linear múltipla.