Medidas de Dispersão e Análise Exploratória
Nesta quarta aula de Estatística, o foco são as medidas de dispersão — o complemento indispensável das medidas de posição. Saber onde está o centro de uma distribuição não é suficiente: dois conjuntos podem ter a mesma média e comportamentos completamente diferentes. É a dispersão que revela se os dados estão concentrados em torno da média ou espalhados por uma ampla faixa de valores. Para o auditor fiscal, isso é crítico: uma carteira de contribuintes com receita média de R$ 500 mil pode ter empresas entre R$ 490 mil e R$ 510 mil (baixa dispersão, perfil homogêneo) ou entre R$ 10 mil e R$ 2 milhões (alta dispersão, perfil heterogêneo e maior risco de inconsistências). A estratégia de estudo ideal é dominar os cálculos de variância e desvio padrão, entender o que o coeficiente de variação compara e saber interpretar um boxplot — os três pontos mais cobrados por FGV, Cebraspe e FCC neste tópico.
📏 1. Por que medir a dispersão?
Duas turmas de auditores fizeram uma prova. Turma A: notas 5, 5, 5, 5, 5 (média = 5). Turma B: notas 1, 3, 5, 7, 9 (média = 5). A média é igual, mas os conjuntos são completamente diferentes. As medidas de dispersão quantificam esse espalhamento — quanto os dados se afastam do centro — e são essenciais para qualquer análise estatística completa.
💡 Regra prática: Medidas de posição dizem onde está o centro. Medidas de dispersão dizem quão confiável é esse centro como representante do conjunto. Dispersão alta = centro pouco representativo.
📐 2. Amplitude Total
A amplitude total é a medida de dispersão mais simples: a diferença entre o maior e o menor valor do conjunto.
\( A = x_{max} - x_{min} \)
Exemplo: valores de autuações entre R$ 5 mil e R$ 80 mil → \( A = 80 - 5 = 75 \) mil.
⚠️ Limitação crítica: A amplitude considera apenas os dois valores extremos, ignorando como os demais dados estão distribuídos. Um único outlier pode inflar a amplitude completamente. Por isso, ela é uma medida grosseira e instável — útil como primeiro diagnóstico, mas insuficiente sozinha.
📊 3. Variância
A variância mede o afastamento médio ao quadrado de cada valor em relação à média. O quadrado é usado para evitar que desvios positivos e negativos se anulem (já que a soma dos desvios é sempre zero).
📌 3.1 Variância Populacional
Quando os dados representam toda a população:
\( \sigma^2 = \dfrac{\displaystyle\sum_{i=1}^{N}(x_i - \mu)^2}{N} \)
📌 3.2 Variância Amostral
Quando os dados representam uma amostra — divide-se por \( n - 1 \) (correção de Bessel) para obter um estimador não viesado da variância populacional:
\( s^2 = \dfrac{\displaystyle\sum_{i=1}^{n}(x_i - \bar{x})^2}{n - 1} \)
⚠️ Divisão por \( n \) ou \( n-1 \)? Essa distinção é cobrada diretamente em prova. Divisão por \( N \): variância populacional (parâmetro \( \sigma^2 \)). Divisão por \( n-1 \): variância amostral (estimador \( s^2 \)). Quando o enunciado não especifica, considere o contexto: se os dados são uma amostra (o que é o mais comum em auditorias), use \( n-1 \).
💡 Atalho de cálculo: Para calcular a variância sem risco de erro de arredondamento, use a fórmula equivalente: \( \sigma^2 = \dfrac{\sum x_i^2}{N} - \mu^2 \). Ela evita calcular os desvios individuais.
📉 4. Desvio Padrão
O desvio padrão é simplesmente a raiz quadrada da variância. Ele devolve a medida à mesma unidade dos dados originais, tornando a interpretação direta.
\( \sigma = \sqrt{\sigma^2} \quad \text{(populacional)} \qquad s = \sqrt{s^2} \quad \text{(amostral)} \)
Exemplo: se os valores de multas estão em R$ e a variância é 900 (R$)², o desvio padrão é \( \sqrt{900} = 30 \) R$ — interpretável diretamente na mesma escala dos dados.
📌 4.1 Interpretação Prática do Desvio Padrão
- Desvio padrão pequeno: dados concentrados próximos à média — distribuição homogênea
- Desvio padrão grande: dados espalhados, afastados da média — distribuição heterogênea
- Desvio padrão = 0: todos os valores são iguais à média
📌 4.2 Propriedades do Desvio Padrão
- Se somarmos (ou subtrairmos) uma constante \( k \) a todos os valores, o desvio padrão não muda — a dispersão não é afetada por deslocamento
- Se multiplicarmos todos os valores por uma constante \( k \), o desvio padrão é multiplicado por \( |k| \)
- O desvio padrão é sempre não negativo: \( s \geq 0 \)
⚠️ Pegadinha de prova: Somar uma constante a todos os valores muda a média mas não muda o desvio padrão. Multiplicar por uma constante muda ambos. Bancas adoram cobrar essa assimetria de comportamento.
📊 5. Desvio Médio Absoluto
Menos cobrado que a variância, mas aparece em alguns concursos. É a média das distâncias absolutas de cada valor em relação à média — evita o quadrado usando o módulo:
\( DM = \dfrac{\displaystyle\sum_{i=1}^{n} |x_i - \bar{x}|}{n} \)
💡 Dica: O desvio médio absoluto é sempre menor ou igual ao desvio padrão. Se a questão pedir comparação entre as duas medidas, lembre: a variância penaliza mais os desvios grandes (por elevar ao quadrado), enquanto o desvio médio trata todos os afastamentos de forma proporcional.
🔢 6. Coeficiente de Variação (CV)
O coeficiente de variação é a medida de dispersão relativa — expressa o desvio padrão como percentual da média, permitindo comparar a variabilidade de conjuntos com unidades ou magnitudes diferentes.
\( CV = \dfrac{s}{\bar{x}} \times 100\% \)
Exemplo: carteira A tem média R$ 100 mil e desvio padrão R$ 20 mil → \( CV_A = 20\% \). Carteira B tem média R$ 500 mil e desvio padrão R$ 80 mil → \( CV_B = 16\% \). Apesar de B ter desvio padrão maior em valor absoluto, ela é relativamente menos dispersa que A.
📌 6.1 Interpretação do CV
- \( CV \leq 15\% \): dispersão baixa — conjunto homogêneo, média muito representativa
- \( 15\% < CV \leq 30\% \): dispersão média — média razoavelmente representativa
- \( CV > 30\% \): dispersão alta — conjunto heterogêneo, média pouco representativa
⚠️ Restrição importante: O CV não pode ser calculado quando a média é zero (divisão por zero) e perde significado quando a média é negativa ou muito próxima de zero. Nesses casos, outras medidas de dispersão relativa devem ser usadas.
📋 Aplicação em auditoria: O CV é amplamente usado para comparar a variabilidade de arrecadação entre diferentes tributos ou regiões — mesmo que os valores absolutos sejam incomparáveis. Um CV alto em determinado tributo pode sinalizar inconsistência sistêmica ou evasão concentrada em certas categorias.
📦 7. Amplitude Interquartil (AIQ)
A amplitude interquartil (também chamada de intervalo interquartil, IIQ) é a diferença entre o terceiro e o primeiro quartil:
\( AIQ = Q_3 - Q_1 \)
Ela mede a dispersão dos 50% centrais dos dados, ignorando os 25% inferiores e os 25% superiores. Por isso, é robusta a outliers — ao contrário da amplitude total.
📌 7.1 Identificação de Outliers pela AIQ
Uma das aplicações mais importantes da AIQ é a identificação de outliers pela regra de Tukey:
- Limite inferior: \( LI = Q_1 - 1{,}5 \times AIQ \)
- Limite superior: \( LS = Q_3 + 1{,}5 \times AIQ \)
- Valores fora desse intervalo são considerados outliers (valores atípicos)
💡 Aplicação em auditoria: A regra de Tukey é usada para identificar contribuintes com valores de operações estatisticamente atípicos em relação à distribuição do setor — um ponto de partida objetivo para selecionar alvos de fiscalização aprofundada.
🗃️ 8. Análise Exploratória de Dados — Boxplot
O boxplot (diagrama de caixas) é o principal instrumento de análise exploratória, pois resume em um único gráfico as cinco medidas essenciais da distribuição: mínimo, \( Q_1 \), mediana, \( Q_3 \) e máximo (os cinco números de Tukey).
📌 8.1 Estrutura do Boxplot
- Caixa (box): vai de \( Q_1 \) a \( Q_3 \), contendo os 50% centrais dos dados. A largura da caixa é a AIQ.
- Linha interna: marca a mediana (\( Q_2 \)) dentro da caixa
- Hastes (whiskers): linhas que se estendem da caixa até o menor e maior valor dentro dos limites de Tukey (\( Q_1 - 1{,}5 \times AIQ \) e \( Q_3 + 1{,}5 \times AIQ \))
- Pontos isolados: valores além das hastes — os outliers
📌 8.2 Interpretação do Boxplot
- Caixa centralizada e hastes simétricas → distribuição aproximadamente simétrica
- Mediana próxima de \( Q_1 \) e haste superior longa → assimetria positiva (cauda à direita)
- Mediana próxima de \( Q_3 \) e haste inferior longa → assimetria negativa (cauda à esquerda)
- Pontos fora das hastes → outliers a serem investigados
⚠️ Atenção: O boxplot não mostra a média diretamente — mostra a mediana. Em distribuições assimétricas, a posição da mediana dentro da caixa revela o sentido da assimetria. Bancas exploram a leitura e interpretação do boxplot com frequência crescente.
🔬 9. Resumo dos Cinco Números e Outras Ferramentas Exploratórias
O resumo dos cinco números — \( \{x_{min},\ Q_1,\ Md,\ Q_3,\ x_{max}\} \) — é a base do boxplot e da análise exploratória. Ele fornece uma visão completa da distribuição sem a necessidade de construir o gráfico.
- Ramo e folhas (stem-and-leaf): organiza os dados preservando os valores originais; permite visualizar a distribuição em conjuntos pequenos com precisão
- Tabela de frequências + histograma: para visualização da forma da distribuição em conjuntos maiores
- Comparação de boxplots: colocar dois boxplots lado a lado é a forma mais eficiente de comparar duas distribuições — posição, dispersão e assimetria simultaneamente
💡 Dica integradora: Na análise exploratória, a sequência ideal é: (1) verificar o resumo dos cinco números, (2) identificar a assimetria pelo boxplot, (3) calcular o CV para avaliar se a média é representativa, (4) investigar outliers pela regra de Tukey. Esse fluxo é exatamente o que auditorias baseadas em dados utilizam na prática.
🗂️ Resumo Final — O que ler na véspera da prova
- Amplitude total: \( A = x_{max} - x_{min} \) — simples, mas sensível a outliers
- Variância populacional: \( \sigma^2 = \sum(x_i - \mu)^2 / N \) — divide por \( N \)
- Variância amostral: \( s^2 = \sum(x_i - \bar{x})^2 / (n-1) \) — divide por \( n-1 \) (correção de Bessel)
- Desvio padrão: raiz quadrada da variância — mesma unidade dos dados
- Somar constante a todos os valores: média muda, desvio padrão não muda
- Multiplicar todos os valores por \( k \): média e desvio padrão são multiplicados por \( |k| \)
- Coeficiente de variação: \( CV = (s / \bar{x}) \times 100\% \) — medida relativa, compara conjuntos de escalas diferentes
- CV ≤ 15%: homogêneo | 15% < CV ≤ 30%: médio | CV > 30%: heterogêneo
- CV não pode ser calculado quando a média é zero
- Amplitude interquartil: \( AIQ = Q_3 - Q_1 \) — dispersão dos 50% centrais, robusta a outliers
- Outliers pela regra de Tukey: abaixo de \( Q_1 - 1{,}5 \times AIQ \) ou acima de \( Q_3 + 1{,}5 \times AIQ \)
- Boxplot: resume os cinco números — mínimo, \( Q_1 \), mediana, \( Q_3 \), máximo
- Boxplot não exibe a média — exibe a mediana
- Mediana deslocada para \( Q_1 \) dentro da caixa → assimetria positiva (cauda à direita)
- Mediana deslocada para \( Q_3 \) dentro da caixa → assimetria negativa (cauda à esquerda)
- Cinco números de Tukey: \( \{x_{min},\ Q_1,\ Md,\ Q_3,\ x_{max}\} \)
Exercícios de Fixação
Compartilhe nos comentários suas dúvidas, sugestões, críticas e elogios sobre esse conteúdo!
Comentários
Postar um comentário