REGRESSÃO 189
Vamos também admitir que a variável X seja suposta sem erro, ou seja, não-aleatória,
enquanto que a variável Y apresenta uma parcela de variação residual, a qual é responsável
pela dispersão dos pontos experimentais em tomo da linha de regressão. Essa suposição
permite utilizar um modelo que simpHfica a solução do problema, e é justificável porque
muitos casos práticos se aproximam dele. Na verdade, encontraremos, na prática, muitos
casos em que a variável X pode ser medida com precisão muito maior do que Y, o que coloca
o problema praticamente nas condições supostas.
A situação descrita corresponde, muitas vezes, a experimentos em que os valores de X
são pré-determinados ou pré-escolhidos pelo experimentador, já que a variável X é suposta
não-aleatória. No entanto, os valores de Y, sendo aleatórios, não podem ser exatamente
previstos, e serão determinados experimentalmente. Podemos, por exemplo, medir as
temperaturas de um forno em aquecimento de 5 em 5 minutos, a partir de um instante O.
Ora, a menos de pequenas imprecisões, totalmente desprezíveis, os tempos (valores de X)
estão bem determinados, ao passo que as temperaturas deverão ser verificadas no decurso
do experimento. Vemos que, nesse exemplo, os valores de X independem dos de Y, pois
foram simplesmente arbitrados, enquanto que os valores de Y dependerão dos de X, desde
que exista regressão. Por essa razão, a variável X é dita variável independente, enquanto Y
é dita variável dependente.
No caso da regressão múltipla, em que mais de duas variáveis são envolvidas, obteremos
uma equação para prever valores de uma variável dependente em função de duas ou mais
variáveis independentes. Esse caso será estudado em 8. 7.
O modelo acima descrito, portanto, considera que os valores da variável aleatória Y
dependerão do(s) valor(es) assumido(s) pela(s) variável(is) independentes) e também do
acaso, isto é, estarão sujeitos a uma variação aleatória que se sobrepõe à variação explicada
pela função de regressão. Isso pode ser expresso sob a forma
y = q,(X) + 1/1,
onde q, denota a função de regressão e 'li a componente aleatória da variação de Y. No caso
de regressão múltipla, x deverá ser interpretado como um vetor de valores das variáveis
independentes.
Ora, é perfeitamente coerente com a idéia contida no modelo admitir-se que a variável
aleatória "'tenha média O, a fim de que toda a variação explicada dey fique concentrada
em q,(x). Isso significa que a função de regressão fornece a média de y para cada x
considerado, conforme já mencionado.
Uma outra suposição básica que adotaremos no nosso estudo é a de que a variação
residual da variável Y seja constante com x. Dito em outras palavras, isso significa admitir
que a variação de Yem tomo da linha teórica de regressão pode ser descrita por um desvio-
padrão residual que independe do ponto considerado.
Por fim, para efeito da realização dos testes de hipóteses sobre a regressão que serão
vistos em 8.5, admitiremos que a variação de Yem tomo da linha teórica de regressão se dê
segundo distribuições normais independentes, para qualquer valor da variável X, o que
implica dizer que os desvios residuais em relação a q,(x) são independentes. l^81 Como a linha
teórica de regressão dá os valores médios de Y em função de x, essa suposição implica
(SJ Essa hipótese de independência entre os resíduos muitas vezes não se verifica, caracterizando uma
situação denominada de autocorrelação. A inexistência de autocorrelação pode ser testada através do método
de Durbín-Watson. Ver, por exemplo, a Ref. 14.