Dado um conjunto de dados, a variância é uma medida de dispersão que mostra o quão distante cada valor desse conjunto está do valor central (médio). Quanto menor é a variância, mais próximos os valores estão da média; mas quanto maior ela é, mais os valores estão distantes da média.
O cálculo da variância populacional é obtido através da soma dos quadrados da diferença entre cada valor e a média aritmética, dividida pela quantidade de elementos observados.
Desvio padrão. É um parâmetro muito usado em estatística que indica o grau de variação de um conjunto de elementos. Exemplificando. Se medirmos a temperatura máxima durante três dias em uma cidade e obtivermos os seguintes valores, 28º, 29º e 30º, podemos dizer que a média desses três dias foi 29º.
A unidade de variância é o quadrado da unidade de observação. Por exemplo, a variância de um conjunto de alturas medidas em centímetros será dada em centímetros quadrados.
Um valor alto para a variância (ou desvio padrão) indica que os valores observados tendem a estar distantes da média – ou seja, a distribuição é mais “espalhada”. Se a variância for relativamente pequena, então os dados tendem a estar mais concentrados em torno da média.
Você pode imaginar o desvio-padrão como uma medida atípica de cada um dos pontos de dados para a média. Então, o maior desvio-padrão que você quer colocar em cima seria aquele no qual os pontos estão mais longe da média, e o menor desvio-padrão é aquele no qual os pontos estão mais próximos da média.
É consenso na indústria que uma distribuição normal tenha: 68% dos valores dentro de um desvio padrão da média. 95% dos valores dentro de dois desvios padrão. 99,7% dos valores dentro de três desvios padrão.
Desvio padrão baixo: um desvio padrão baixo indica que a maioria dos valores do conjunto de dados está próxima da média. Os dados são menos dispersos e estão concentrados em torno da média; Desvio padrão alto: um desvio padrão alto sugere que os valores estão mais distantes da média e há uma maior dispersão dos dados.
Antes de mostrarmos a fórmula para calcular a variância, é importante sabermos que existem dois tipos: a variância amostral e a variância populacional.
As médias do grupo são: 11,203, 8,938, 10,683 e 8,838 Essas médias de grupo estão distribuídas em torno da média global para todas as 40 observações, que é 9,915. Se as médias dos grupos estão aglomeradas próximas à média global, suas variâncias é baixa.
Você pode identificar a informação de que o desvio padrão está grande ou pequeno através do coeficiente de variação, conhecido como CV. Ele é calculado através da divisão entre o desvio padrão pela média da variável e é dado em porcentagem.
Um grande desvio padrão indica que os pontos dos dados estão espalhados longe da média e um pequeno desvio padrão indica que os pontos dos dados estão agrupados perto da média. Por exemplo, cada uma das três populações {0, 0, 14, 14}, {0, 6, 8, 14} e {6, 6, 8, 8} possui média 7.
O desvio padrão é uma medida que só pode assumir valores não negativos e quanto maior for, maior será a dispersão dos dados. Algumas propriedades do desvio padrão, que resultam imediatamente da definição, são: o desvio padrão é sempre não negativo e será tanto maior, quanta mais variabilidade houver entre os dados.
O número de objetos (ou de dados) de uma população é o tamanho da mesma, sendo geralmente representado por N. uma população pode ser finita ou infinita. A população finita possui um número limitado de objetos (ou de dados).
Qual a finalidade do desvio-padrão em um conjunto de dados?
Desvio-padrão é uma medida de variabilidade. A notação do desvio-padrão é a letra grega sigma minúscula (σ) ou a letra s. O desvio-padrão é utilizado para verificar a variabilidade dos dados em torno da média.
Em outras palavras, para encontrar a amplitude de uma lista de números, basta subtrair o menor elemento do maior. No exemplo dado acima, existem duas amplitudes a serem avaliadas: a do primeiro e a do segundo aluno. O primeiro aluno tem 8 como maior nota e 6 como menor. A amplitude de suas notas foi: 8 – 6 = 2.
A variância é uma medida de dispersão que mostra quão distantes os valores estão da média. Ela é usada para determinar o grau de variabilidade dos dados de um conjunto de valores.
O desvio-padrão pode ser representado por Dp ou pela letra grega σ (sigma). De modo geral, temos que: Quanto maior o desvio-padrão, mais dispersos são os dados do conjunto (menos regular, menos homogêneo). Quanto menor o desvio-padrão, menos dispersos são os dados do conjunto (mais regular, mais homogêneo).
A amplitude é fácil de calcular: é a diferença entre o maior e o menor ponto de dado em um conjunto. O desvio-padrão é a raiz quadrada da variância. A variância é a medida de dispersão que mostra a distância que o dado está de sua média.