CARACTERÍSTICAS NUMÉRICAS DE UMA DISTRIBUIÇÃO DE FREQÜÊNCIAS 25
A amplitude (R)
A amplitude, já mencionada no item 2.2.3 , é definida como a diferença entre o maior e o
menor valores do conjunto de dados:
(2.9)
É claro que o valor de R está relacionado com a dispersão dos dados. Entretanto, por
depender de apenas dois valores do conjunto de dados, a amplitude contém relativamente
pouca informação quanto à dispersão. Salvo aplicações no controle da qualidade, a ampli-
tude não é muito utilizada como medida de dispersão.
A variância (s2)
A variância de um conjunto de dados é dada por
(2 .1 O)
Se os dados estiverem dispostos em uma tabela de freqüências, poderemos obter~ por
S^2 _ "'k .t..l-·-i(X· l -X) - 2./z l ·
x- n-1 · (2 .11)
Na definição acima, estamos considerando implicitamente que os dados se referem a
uma amostra. Caso esses dados representassem toda uma população, a divisão deveria ser
feita por n e não por n -1. A variância seria, então, o desvio quadrático médio, ou a média
dos quadrados das diferenças dos valores em relação à sua própria média.
A razão pela qual utilizamos n -1 no denominador da variância de dados provenientes
de amostras deve-se a motivos que veremos no Cap. 4, ligados aos problemas da Estatística
Indutiva.
Por outro lado, analogamente ao que foi visto no caso da média, se os dados constituírem
uma distribuição por classes de freqüências, poderemos calcular sua variância pela expressão
(2 .11), onde xi são os pontos médios das classes eJ; as respectivas freqüências. A variância
assim calculada para os dados agrupados em classes deverá ser aproximadamente igual à
variância exata dos n dados originais.l^9 l
[SJ Entre outras medidas de dispersão que, pela sua menor utilização, não serão tratadas neste texto, podemos
citar o desvio médio, ldl = I7= 1 1x;-i 1 /n, e a amplitude interquartil, Q 3 - Q 1 • O desvio médio é, em geral,
aproximadamente igual a 0,8 vezes o desvio-padrão.
[^91 A rigor, a variância calculada com base nos dados agrupados tende a ser ligeiramente superior à calculada
com base nos dados originais, em especial no caso de distribuições unimodais aproximadamente simétricas.
Isso porque, nesses casos, a tendência real em cada classe é a de que os valores originais do conjunto de
dados se situem com mais freqüência na metade da classe mais próxima da moda da distribuição, a qual
deverá ser próxima da média. Ora, ao substituir todos os valores originais da classe pelo seu ponto médio,
iremos, em geral. majorar a soma dos quadrados das diferenças em relação à soma referente a essa classe.
Uma tentativa no sentido de corrigir essa tendência é feita pela chamada correção de Sheppard para a variância,
a qual, em primeira aproximação, indica que se deve subtrair h^2 /12 da variância calculada com base nos dados
agrupados. Tal consideração é baseada em distribuições aproximadamente normais. Para maiores esclarecimentos,
veja, por exemplo, a Ref. 16. Na Ref. 4 são tratados casos que se distanciam da normalidade.