segunda-feira, 21 de outubro de 2013

Medidas de dispersão


vimos algumas medidas de localização do centro de uma distribuição de dados. Veremos agora como medir a variabilidade presente num conjunto de dados através das seguintes medidas:

Medidas de dispersão
Um aspecto importante no estudo descritivo de um conjunto de dados, é o da determinação da variabilidade ou dispersão desses dados, relativamente à medida de localização do centro da amostra.
Supondo ser a média, a medida de localização mais importante, será relativamente a ela que se define a principal medida de dispersão - a variância, apresentada a seguir.

Variância
Define-se a variância, como sendo a medida que se obtém somando os quadrados dos desvios das observações da amostra, relativamente à sua média, e dividindo pelo número de observações da amostra menos um.



Desvio-padrão
Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a mesma que a dos dados. Assim, para obter uma medida da variabilidade ou dispersão com as mesmas unidades que os dados, tomamos a raiz quadrada da variância e obtemos o desvio padrão:
O desvio padrão é uma medida que só pode assumir valores não negativos e quanto maior for, maior será a dispersão dos dados.
Algumas propriedades do desvio padrão, que resultam imediatamente da definição, são:
o desvio padrão será maior, quanta mais variabilidade houver entre os dados.




Ex.:

Em uma turma de aluno, verificou-se através da análise das notas de 15 alunos, os seguintes desempenhos:

AlunosConceito na Prova
14,3
24,5
39
46
58
66,7
77,5
810
97,5
106,3
118
125,5
139,7
149,3
157,5
Total109,8
Média7,32
Desvio Padrão1,77


Observamos no exemplo, que a média das provas, foi estimada em 7,32 com desvio padrão em 1,77. Concluímos que a maioria das notas concentrou-se em 9,09 e 5,55.



Medidas de tendencia Central


As mais importante medidas de tendência central, são a média aritmética, média aritmética para dados agrupados, média aritmética ponderada, mediana, moda, média geométrica, média harmônica, quartis. Quando se estuda variabilidade, as medidas mais importantes são: amplitude, desvio padrão e variância.

Medidas
Média aritmética
Média aritmética para dados agrupados
Média aritmética ponderada
Mediana1) Se n é impar, o valor é central, 2) se n é par, o valor é a média dos dois valores centrais
ModaValor que ocorre com mais freqüência.
Média geométrica
Média harmônica
Quartil


Sendo a média uma medida tão sensível aos dados, é preciso ter cuidado com a sua utilização, pois pode dar uma imagem distorcida dos dados.
Pode-se mostrar, que quando a distribuição dos dados é "normal", então a melhor medida de localização do centro, é a média.
Sendo a Distribuição Normal uma das distribuições mais importantes e que surge com mais freqüência nas aplicações, (esse fato justifica a grande utilização da média).

A média possui uma particularidade bastante interessante, que consiste no seguinte:
se calcularmos os desvios de todas as observações relativamente à média e somarmos esses desvios o resultado obtido é igual a zero.

A média tem uma outra característica, que torna a sua utilização vantajosa em certas aplicações:
Quando o que se pretende representar é a quantidade total expressa pelos dados, utiliza-se a média.
Na realidade, ao multiplicar a média pelo número total de elementos, obtemos a quantidade pretendida.


Moda (MO)

Define-se moda como sendo: o valor que surge com mais freqüência se os dados são discretos, ou, o intervalo de classe com maior freqüência se os dados são contínuos.
Assim, da representação gráfica dos dados, obtém-se imediatamente o valor que representa a moda ou a classe modal
Esta medida é especialmente útil para reduzir a informação de um conjunto de dados qualitativos, apresentados sob a forma de nomes ou categorias, para os quais não se pode calcular a média e por vezes a mediana.

 Mediana (ME)

A mediana, é uma medida de localização do centro da distribuição dos dados, definida do seguinte modo:
Ordenados os elementos da amostra, a mediana é o valor (pertencente ou não à amostra) que a divide ao meio, isto é, 50% dos elementos da amostra são menores ou iguais à mediana e os outros 50% são maiores ou iguais à mediana
Para a sua determinação utiliza-se a seguinte regra, depois de ordenada a amostra de n elementos:
Se n é ímpar, a mediana é o elemento médio.
Se n é par, a mediana é a semi-soma dos dois elementos médios.

Considerações a respeito de Média e Mediana

Se se representarmos os elementos da amostra ordenada com a seguinte notação: X1:n , X2:n , ... , Xn:n
então uma expressão para o cálculo da mediana será:
Como medida de localização, a mediana é mais robusta do que a média, pois não é tão sensível aos dados.
1- Quando a distribuição é simétrica, a média e a mediana coincidem.
2- A mediana não é tão sensível, como a média, às observações que são muito maiores ou muito menores do que as restantes (outliers). Por outro lado a média reflete o valor de todas as observações.

Como já vimos, a média ao contrário da mediana, é uma medida muito influenciada por valores "muito grandes" ou "muito pequenos", mesmo que estes valores surjam em pequeno número na amostra. Estes valores são os responsáveis pela má utilização da média em muitas situações em que teria mais significado utilizar a mediana.

A partir do exposto, deduzimos que se a distribuição dos dados:
1. for aproximadamente simétrica, a média aproxima-se da mediana
2. for enviesada para a direita (alguns valores grandes como "outliers"), a média tende a ser maior que a mediana
3. for enviesada para a esquerda (alguns valores pequenos como "outliers"), a média tende a ser inferior à mediana.




Fonte: Matemática
Contexto & Aplicações
Livro - Dante volume 3;

Frequência Absoluta e Frequência Relativa


A frequência absoluta, ou apenas frequência, de um valor é o número de vezes que uma determinada variável assume esse valor. Ao conjunto das frequências dos diferentes valores da variável dá-se o nome de distribuição da frequência (ou apenas distribuição).

A frequência relativa, é a percentagem relativa à frequência.

Exemplo01: Consideremos a seguinte tabela


Nome 
Sexo 
Nome Sexo 
PaulaFGonçaloM
ManuelMPedroM
CarlaFCristinaF
MariaFSofiaF
JoãoMSusanaF


Sexo Masculino: Frequência absoluta : 4
                             Frequência relativa: 4 em 10 = 40%
Sexo Feminino: Frequência absoluta : 6
                             Frequência relativa: 6 em 10 = 60%

Assim a tabela de frequências da variável Sexo será: 

variável
freq. absoluta (n)
freq. relativa (%)
Sexo 
440%
660%
Total 10100% 



Exemplo02: A variável é “nacionalidade” e a freqüência absoluta de cada um de seus valores é: brasileira = 6; espanhola = 3 e argentina = 1. Existe também a freqüência relativa, que registra a freqüência absoluta em relação ao total de citações. Nesse exemplo temos: 

- freqüência relativa da nacionalidade brasileira: 6 em 10 ou 6/10 ou 0,6 ou 60%.
- freqüência relativa da nacionalidade espanhola:3 em 10 ou 3/10 ou 0,3 ou 30%. 
- freqüência relativa da nacionalidade argentina:1 em 10 ou 1/10 ou 0,1 ou 10%.


TABELA DE FREQUÊNCIAS:
 A tabela que mostra a variável e suas realizações (valores), com as frequências absolutas (FA) e relativas (FR), é chamada de Tabela de Frequências. Assim, continuando com o mesmo exemplo, temos: 

Nacionalidade
 FA
FR
Brasileira
6
60%
Espanhola
3
30%
Argentina
1
10%
TOTAL
10
100%



Fonte: Matemática
Contexto & Aplicações
Livro - Dante volume 3;