Medidas de Dispersão e Análise Exploratória

Nesta quarta aula de Estatística, o foco são as medidas de dispersão — o complemento indispensável das medidas de posição. Saber onde está o centro de uma distribuição não é suficiente: dois conjuntos podem ter a mesma média e comportamentos completamente diferentes. É a dispersão que revela se os dados estão concentrados em torno da média ou espalhados por uma ampla faixa de valores. Para o auditor fiscal, isso é crítico: uma carteira de contribuintes com receita média de R$ 500 mil pode ter empresas entre R$ 490 mil e R$ 510 mil (baixa dispersão, perfil homogêneo) ou entre R$ 10 mil e R$ 2 milhões (alta dispersão, perfil heterogêneo e maior risco de inconsistências). A estratégia de estudo ideal é dominar os cálculos de variância e desvio padrão, entender o que o coeficiente de variação compara e saber interpretar um boxplot — os três pontos mais cobrados por FGV, Cebraspe e FCC neste tópico.

📏 1. Por que medir a dispersão?

Duas turmas de auditores fizeram uma prova. Turma A: notas 5, 5, 5, 5, 5 (média = 5). Turma B: notas 1, 3, 5, 7, 9 (média = 5). A média é igual, mas os conjuntos são completamente diferentes. As medidas de dispersão quantificam esse espalhamento — quanto os dados se afastam do centro — e são essenciais para qualquer análise estatística completa.

💡 Regra prática: Medidas de posição dizem onde está o centro. Medidas de dispersão dizem quão confiável é esse centro como representante do conjunto. Dispersão alta = centro pouco representativo.

📐 2. Amplitude Total

A amplitude total é a medida de dispersão mais simples: a diferença entre o maior e o menor valor do conjunto.

$ A = x_{max} - x_{min} $

Exemplo: valores de autuações entre R$ 5 mil e R$ 80 mil → $ A = 80 - 5 = 75 $ mil.

⚠️ Limitação crítica: A amplitude considera apenas os dois valores extremos, ignorando como os demais dados estão distribuídos. Um único outlier pode inflar a amplitude completamente. Por isso, ela é uma medida grosseira e instável — útil como primeiro diagnóstico, mas insuficiente sozinha.

📊 3. Variância

A variância mede o afastamento médio ao quadrado de cada valor em relação à média. O quadrado é usado para evitar que desvios positivos e negativos se anulem (já que a soma dos desvios é sempre zero).

📌 3.1 Variância Populacional

Quando os dados representam toda a população:

$ \sigma^2 = \dfrac{\displaystyle\sum_{i=1}^{N}(x_i - \mu)^2}{N} $

📌 3.2 Variância Amostral

Quando os dados representam uma amostra — divide-se por $ n - 1 $ (correção de Bessel) para obter um estimador não viesado da variância populacional:

$ s^2 = \dfrac{\displaystyle\sum_{i=1}^{n}(x_i - \bar{x})^2}{n - 1} $

⚠️ Divisão por $ n $ ou $ n-1 $? Essa distinção é cobrada diretamente em prova. Divisão por $ N $: variância populacional (parâmetro $ \sigma^2 $). Divisão por $ n-1 $: variância amostral (estimador $ s^2 $). Quando o enunciado não especifica, considere o contexto: se os dados são uma amostra (o que é o mais comum em auditorias), use $ n-1 $.

💡 Atalho de cálculo: Para calcular a variância sem risco de erro de arredondamento, use a fórmula equivalente: $ \sigma^2 = \dfrac{\sum x_i^2}{N} - \mu^2 $. Ela evita calcular os desvios individuais.

📉 4. Desvio Padrão

O desvio padrão é simplesmente a raiz quadrada da variância. Ele devolve a medida à mesma unidade dos dados originais, tornando a interpretação direta.

$ \sigma = \sqrt{\sigma^2} \quad \text{(populacional)} \qquad s = \sqrt{s^2} \quad \text{(amostral)} $

Exemplo: se os valores de multas estão em R$ e a variância é 900 (R$)², o desvio padrão é $ \sqrt{900} = 30 $ R$ — interpretável diretamente na mesma escala dos dados.

📌 4.1 Interpretação Prática do Desvio Padrão

Desvio padrão pequeno: dados concentrados próximos à média — distribuição homogênea
Desvio padrão grande: dados espalhados, afastados da média — distribuição heterogênea
Desvio padrão = 0: todos os valores são iguais à média

📌 4.2 Propriedades do Desvio Padrão

Se somarmos (ou subtrairmos) uma constante $ k $ a todos os valores, o desvio padrão não muda — a dispersão não é afetada por deslocamento
Se multiplicarmos todos os valores por uma constante $ k $, o desvio padrão é multiplicado por $ |k| $
O desvio padrão é sempre não negativo: $ s \geq 0 $

⚠️ Pegadinha de prova: Somar uma constante a todos os valores muda a média mas não muda o desvio padrão. Multiplicar por uma constante muda ambos. Bancas adoram cobrar essa assimetria de comportamento.

📊 5. Desvio Médio Absoluto

Menos cobrado que a variância, mas aparece em alguns concursos. É a média das distâncias absolutas de cada valor em relação à média — evita o quadrado usando o módulo:

$ DM = \dfrac{\displaystyle\sum_{i=1}^{n} |x_i - \bar{x}|}{n} $

💡 Dica: O desvio médio absoluto é sempre menor ou igual ao desvio padrão. Se a questão pedir comparação entre as duas medidas, lembre: a variância penaliza mais os desvios grandes (por elevar ao quadrado), enquanto o desvio médio trata todos os afastamentos de forma proporcional.

🔢 6. Coeficiente de Variação (CV)

O coeficiente de variação é a medida de dispersão relativa — expressa o desvio padrão como percentual da média, permitindo comparar a variabilidade de conjuntos com unidades ou magnitudes diferentes.

$ CV = \dfrac{s}{\bar{x}} \times 100\% $

Exemplo: carteira A tem média R$ 100 mil e desvio padrão R$ 20 mil → $ CV_A = 20\% $. Carteira B tem média R$ 500 mil e desvio padrão R$ 80 mil → $ CV_B = 16\% $. Apesar de B ter desvio padrão maior em valor absoluto, ela é relativamente menos dispersa que A.

📌 6.1 Interpretação do CV

$ CV \leq 15\% $: dispersão baixa — conjunto homogêneo, média muito representativa
$ 15\% < CV \leq 30\% $: dispersão média — média razoavelmente representativa
$ CV > 30\% $: dispersão alta — conjunto heterogêneo, média pouco representativa

⚠️ Restrição importante: O CV não pode ser calculado quando a média é zero (divisão por zero) e perde significado quando a média é negativa ou muito próxima de zero. Nesses casos, outras medidas de dispersão relativa devem ser usadas.

📋 Aplicação em auditoria: O CV é amplamente usado para comparar a variabilidade de arrecadação entre diferentes tributos ou regiões — mesmo que os valores absolutos sejam incomparáveis. Um CV alto em determinado tributo pode sinalizar inconsistência sistêmica ou evasão concentrada em certas categorias.

📦 7. Amplitude Interquartil (AIQ)

A amplitude interquartil (também chamada de intervalo interquartil, IIQ) é a diferença entre o terceiro e o primeiro quartil:

$ AIQ = Q_3 - Q_1 $

Ela mede a dispersão dos 50% centrais dos dados, ignorando os 25% inferiores e os 25% superiores. Por isso, é robusta a outliers — ao contrário da amplitude total.

📌 7.1 Identificação de Outliers pela AIQ

Uma das aplicações mais importantes da AIQ é a identificação de outliers pela regra de Tukey:

Limite inferior: $ LI = Q_1 - 1{,}5 \times AIQ $
Limite superior: $ LS = Q_3 + 1{,}5 \times AIQ $
Valores fora desse intervalo são considerados outliers (valores atípicos)

💡 Aplicação em auditoria: A regra de Tukey é usada para identificar contribuintes com valores de operações estatisticamente atípicos em relação à distribuição do setor — um ponto de partida objetivo para selecionar alvos de fiscalização aprofundada.

🗃️ 8. Análise Exploratória de Dados — Boxplot

O boxplot (diagrama de caixas) é o principal instrumento de análise exploratória, pois resume em um único gráfico as cinco medidas essenciais da distribuição: mínimo, $ Q_1 $, mediana, $ Q_3 $ e máximo (os cinco números de Tukey).

📌 8.1 Estrutura do Boxplot

Caixa (box): vai de $ Q_1 $ a $ Q_3 $, contendo os 50% centrais dos dados. A largura da caixa é a AIQ.
Linha interna: marca a mediana ($ Q_2 $) dentro da caixa
Hastes (whiskers): linhas que se estendem da caixa até o menor e maior valor dentro dos limites de Tukey ($ Q_1 - 1{,}5 \times AIQ $ e $ Q_3 + 1{,}5 \times AIQ $)
Pontos isolados: valores além das hastes — os outliers

📌 8.2 Interpretação do Boxplot

Caixa centralizada e hastes simétricas → distribuição aproximadamente simétrica
Mediana próxima de $ Q_1 $ e haste superior longa → assimetria positiva (cauda à direita)
Mediana próxima de $ Q_3 $ e haste inferior longa → assimetria negativa (cauda à esquerda)
Pontos fora das hastes → outliers a serem investigados

⚠️ Atenção: O boxplot não mostra a média diretamente — mostra a mediana. Em distribuições assimétricas, a posição da mediana dentro da caixa revela o sentido da assimetria. Bancas exploram a leitura e interpretação do boxplot com frequência crescente.

🔬 9. Resumo dos Cinco Números e Outras Ferramentas Exploratórias

O resumo dos cinco números — $ \{x_{min},\ Q_1,\ Md,\ Q_3,\ x_{max}\} $ — é a base do boxplot e da análise exploratória. Ele fornece uma visão completa da distribuição sem a necessidade de construir o gráfico.

Ramo e folhas (stem-and-leaf): organiza os dados preservando os valores originais; permite visualizar a distribuição em conjuntos pequenos com precisão
Tabela de frequências + histograma: para visualização da forma da distribuição em conjuntos maiores
Comparação de boxplots: colocar dois boxplots lado a lado é a forma mais eficiente de comparar duas distribuições — posição, dispersão e assimetria simultaneamente

💡 Dica integradora: Na análise exploratória, a sequência ideal é: (1) verificar o resumo dos cinco números, (2) identificar a assimetria pelo boxplot, (3) calcular o CV para avaliar se a média é representativa, (4) investigar outliers pela regra de Tukey. Esse fluxo é exatamente o que auditorias baseadas em dados utilizam na prática.

🗂️ Resumo Final — O que ler na véspera da prova

Amplitude total: $ A = x_{max} - x_{min} $ — simples, mas sensível a outliers
Variância populacional: $ \sigma^2 = \sum(x_i - \mu)^2 / N $ — divide por $ N $
Variância amostral: $ s^2 = \sum(x_i - \bar{x})^2 / (n-1) $ — divide por $ n-1 $ (correção de Bessel)
Desvio padrão: raiz quadrada da variância — mesma unidade dos dados
Somar constante a todos os valores: média muda, desvio padrão não muda
Multiplicar todos os valores por $ k $: média e desvio padrão são multiplicados por $ |k| $
Coeficiente de variação: $ CV = (s / \bar{x}) \times 100\% $ — medida relativa, compara conjuntos de escalas diferentes
CV ≤ 15%: homogêneo | 15% < CV ≤ 30%: médio | CV > 30%: heterogêneo
CV não pode ser calculado quando a média é zero
Amplitude interquartil: $ AIQ = Q_3 - Q_1 $ — dispersão dos 50% centrais, robusta a outliers
Outliers pela regra de Tukey: abaixo de $ Q_1 - 1{,}5 \times AIQ $ ou acima de $ Q_3 + 1{,}5 \times AIQ $
Boxplot: resume os cinco números — mínimo, $ Q_1 $, mediana, $ Q_3 $, máximo
Boxplot não exibe a média — exibe a mediana
Mediana deslocada para $ Q_1 $ dentro da caixa → assimetria positiva (cauda à direita)
Mediana deslocada para $ Q_3 $ dentro da caixa → assimetria negativa (cauda à esquerda)
Cinco números de Tukey: $ \{x_{min},\ Q_1,\ Md,\ Q_3,\ x_{max}\} $

Compartilhe nos comentários suas dúvidas, sugestões, críticas e elogios sobre esse conteúdo!

Contadoria Geral