188 CORRELAÇÃO E REGRESSÃO
diagrama, e que explica grande parte da variação de y com x, ou vice-versa. Esse rela-
cionamento funcional corresponderia à linha existente na figura, que seria a linha de
regressão. Uma parcela da variação, entretanto, permanece em geral sem ser explicada, e
será atribuída ao acaso. Em outras palavras, admitimos existir uma função que justifica, em
média, a variação de uma das variáveis com a outra. Na prática, os pontos experimentais
terão uma variação em torno da linha representativa dessa função, devido à existência de
uma variação aleatória adicional, que chamaremos de variação residual. Essa função de
regressão, portanto, nos dá o valor médio de uma das variáveis em função da outra; por
exemplo, μ(Ylx). Posto dessa forma, o problema que vamos examinar será, dados os pontos
experimentais, o de realizar uma indução quanto à expressão matemática da função de
regressão.
Evidentemente, tudo se simplificará se a forma da linha de regressão for suposta
conhecida. O problema, então, se reduzirá apenas à estimação de seus parâmetros. Esse
caso ocorrerá se existirem razões teóricas que permitam saber de antemão qual o modelo
que rege o comportamento de uma variável em função da outra. A Lei de Hook, por exemplo,
afirma que, dentro de certos limites, as deformações de corpos metálicos variam linearmente
com as tensões aplicadas. Na análise de um experimento desse tipo, portanto, o modelo
linear para a linha de regressão poderia ser adotado de início. Pode também ocorrer o caso
em que a forma da linha fica evidente da própria análise do diagrama de dispersão.
Caso a forma da linha de regressão não seja conhecida de antemão, ela deverá ser
inferida juntamente com seus parâmetros. Teremos, então, além do problema de estimação
dos parâmetros do modelo da linha de regressão, a dificuldade adicional de especificar a
forma do modelo. Uma técnica muito útil nesse caso é a análise de melhoria, que será
estudada posteriormente.
No estudo que segue, vamos admitir inicialmente que a forma da linha de regressão
seja uma reta. Teremos então o problema da regressão linear simples, que veremos a seguir.
O termo "simples" destina-se a frisar que temos apenas duas variáveis. Posteriormente,
estudaremos a regressão polinomial, em que a forma da função é suposta um polinômio de
grau superior a 1, e a regressão linear múltipla, em que temos mais de duas variáveis
envolvidas. Em todos os casos, entretanto, a idéia e os princípios fundamentais serão os
mesmos que discutiremos em seguida.