Gráficos e Identificação de Outliers
Nesta quinta aula de Estatística, o foco é a leitura e interpretação visual de dados — uma competência cada vez mais cobrada em concursos de auditoria. Depois de dominar medidas de posição e dispersão, o próximo passo é saber extrair essas informações diretamente de gráficos, especialmente o boxplot e o diagrama de dispersão. Em provas de auditoria, raramente você verá um conjunto de dados brutos para calcular do zero: o mais comum é uma figura ou tabela resumida que exige interpretação. O examinador quer saber se você entende o que o gráfico comunica — assimetria, outliers, correlação, concentração. A estratégia de estudo é simples: leia os conceitos, visualize mentalmente cada gráfico descrito e depois resolva questões que apresentem imagens ou descrições de boxplots e diagramas de dispersão pedindo conclusões — esse é o formato favorito de FGV, Cebraspe e FCC neste tópico.
📦 1. Boxplot — Revisão e Aprofundamento
O boxplot (diagrama de caixas) é o gráfico mais versátil da estatística descritiva. Com uma única figura, ele comunica simultaneamente: posição central, dispersão, assimetria e presença de outliers. Por isso, é o instrumento de análise exploratória mais cobrado em concursos de auditoria.
📌 1.1 Anatomia Completa do Boxplot
- Caixa (box): retângulo que vai de \( Q_1 \) a \( Q_3 \) — contém exatamente os 50% centrais dos dados
- Linha mediana: traço interno à caixa que marca \( Q_2 \) (mediana) — pode estar em qualquer posição dentro da caixa
- Hastes (whiskers): linhas que partem das bordas da caixa em direção aos extremos, até o valor real mais extremo dentro dos limites de Tukey — não até os limites calculados em si
- Limites de Tukey: fronteiras matemáticas: \( LI = Q_1 - 1{,}5 \times AIQ \) e \( LS = Q_3 + 1{,}5 \times AIQ \)
- Outliers: pontos individuais plotados além das hastes — valores que ultrapassam os limites de Tukey
⚠️ Detalhe crítico: As hastes vão até o último valor real dentro do limite de Tukey — não até o limite calculado. Se o limite superior for 150 mas o maior valor não-outlier for 140, a haste vai até 140. Bancas exploram exatamente essa distinção.
📌 1.2 Leitura da Assimetria pelo Boxplot
A posição da mediana dentro da caixa e o comprimento relativo das hastes revelam a assimetria da distribuição:
- Simétrica: mediana centralizada na caixa + hastes de comprimento similar
- Assimétrica positiva (cauda à direita): mediana próxima de \( Q_1 \) + haste superior mais longa + outliers à direita
- Assimétrica negativa (cauda à esquerda): mediana próxima de \( Q_3 \) + haste inferior mais longa + outliers à esquerda
💡 Macete visual: Veja para qual lado a caixa está "comprimida". O lado comprimido é onde os dados se concentram; a cauda está no lado esticado. Cauda à direita = assimetria positiva = \( Mo < Md < \bar{x} \).
📌 1.3 O que o Boxplot NÃO mostra
- Não mostra a média aritmética (apenas a mediana)
- Não revela se a distribuição é unimodal, bimodal ou multimodal
- Não informa quantos dados estão em cada região (apenas a proporção — 25% por quarto)
- Não mostra os valores individuais (exceto os outliers)
⚠️ Pegadinha frequente: "A haste superior mais longa indica que há mais dados naquela região." ERRADO. As hastes e os quartis sempre dividem os dados em partes de 25% cada — o comprimento da haste indica apenas o espalhamento desses 25%, não a quantidade.
📌 1.4 Comparação de Boxplots
Colocar dois ou mais boxplots lado a lado é a forma mais eficiente de comparar distribuições. Permite identificar simultaneamente:
- Qual grupo tem maior valor central (posição das medianas)
- Qual grupo é mais disperso (largura das caixas e comprimento das hastes)
- Qual grupo tem distribuição mais assimétrica (posição da mediana na caixa)
- Qual grupo tem mais outliers (pontos além das hastes)
📋 Aplicação em auditoria: Boxplots comparativos são usados para confrontar a distribuição de valores declarados por contribuintes de um mesmo setor em diferentes regiões ou períodos — desvios sistemáticos de posição ou dispersão podem indicar padrões de evasão ou inconsistência fiscal.
🎯 2. Identificação de Outliers
Outliers (valores atípicos) são observações que se afastam significativamente do padrão do conjunto. Sua identificação é central em auditoria — um valor atípico pode representar erro de registro, fraude ou simplesmente uma operação legítima mas incomum.
📌 2.1 Regra de Tukey (Método dos Quartis)
É o método mais cobrado em concursos. Define os limites:
- \( LI = Q_1 - 1{,}5 \times AIQ \) — limite inferior
- \( LS = Q_3 + 1{,}5 \times AIQ \) — limite superior
Onde \( AIQ = Q_3 - Q_1 \). Valores fora desse intervalo são outliers. Alguns autores definem ainda outliers extremos usando o multiplicador 3 em vez de 1,5.
💡 Dica de cálculo: Memorize a sequência: (1) calcule a AIQ, (2) multiplique por 1,5, (3) subtraia de \( Q_1 \) para o limite inferior e some a \( Q_3 \) para o superior, (4) compare cada valor suspeito com esses limites. Simples e mecânico.
📌 2.2 Método do Desvio Padrão (Regra Empírica)
Em distribuições aproximadamente normais, aplica-se a regra empírica (68-95-99,7):
- Cerca de 68% dos dados estão entre \( \mu - \sigma \) e \( \mu + \sigma \)
- Cerca de 95% dos dados estão entre \( \mu - 2\sigma \) e \( \mu + 2\sigma \)
- Cerca de 99,7% dos dados estão entre \( \mu - 3\sigma \) e \( \mu + 3\sigma \)
Um valor além de \( \pm 3\sigma \) da média é considerado outlier neste critério — com probabilidade menor que 0,3% de ocorrência em uma distribuição normal.
⚠️ Limitação: A regra empírica pressupõe distribuição aproximadamente normal. Para distribuições assimétricas (como receitas ou valores de multas), a regra de Tukey é mais robusta e adequada.
📌 2.3 Tratamento de Outliers
Identificar um outlier não significa automaticamente excluí-lo. As opções são:
- Investigar: verificar se é erro de digitação, fraude ou operação legítima incomum
- Manter: se for um valor legítimo e relevante para a análise
- Excluir ou transformar: se for comprovadamente um erro ou se distorcer gravemente as análises
- Usar medidas robustas: substituir a média pelo mediana ou o desvio padrão pela AIQ quando há outliers
💡 Perspectiva do auditor: Em fiscalização tributária, o outlier não é descartado — ele é o principal alvo de investigação. Um contribuinte com valor de operações muito acima do padrão do setor é exatamente quem merece atenção prioritária.
📈 3. Diagrama de Dispersão
O diagrama de dispersão (ou gráfico de dispersão) representa a relação entre duas variáveis quantitativas. Cada ponto do gráfico corresponde a um par de valores \( (x_i, y_i) \) de um mesmo elemento. É o instrumento visual para identificar correlação entre variáveis.
📌 3.1 Padrões de Correlação no Diagrama
- Correlação positiva: pontos distribuídos em tendência crescente (da esquerda-baixo para direita-cima) — quando X aumenta, Y tende a aumentar
- Correlação negativa: pontos em tendência decrescente (da esquerda-cima para direita-baixo) — quando X aumenta, Y tende a diminuir
- Sem correlação (nula): pontos dispersos sem padrão direcional identificável
- Correlação não linear: pontos formam uma curva (parabólica, exponencial etc.) em vez de uma linha reta
💡 Exemplo prático: Em auditoria, um diagrama entre "valor de receita declarada" e "valor de ICMS recolhido" deveria mostrar correlação positiva forte. Contribuintes cujo ponto foge do padrão linear (outliers no diagrama) merecem atenção especial.
📌 3.2 Intensidade da Correlação
A nuvem de pontos revela visualmente a intensidade da associação:
- Correlação forte: pontos próximos de uma linha reta imaginária — pouca dispersão em torno da tendência
- Correlação fraca: pontos muito dispersos em torno da tendência — padrão existe mas é impreciso
- Correlação perfeita: todos os pontos sobre uma linha reta (raramente observada em dados reais)
⚠️ Correlação não implica causalidade: Mesmo que o diagrama mostre correlação forte entre duas variáveis, isso não prova que uma causa a outra. Pode haver uma terceira variável (variável de confundimento) que explica ambas. Esse princípio é cobrado conceitualmente em questões de interpretação.
📌 3.3 Outliers no Diagrama de Dispersão
No diagrama de dispersão, outliers são pontos que se afastam do padrão geral da nuvem — seja por terem valor muito extremo em \( x \) ou em \( y \), seja por quebrarem o padrão de correlação dos demais pontos. Esses pontos influenciam fortemente o coeficiente de correlação e a linha de regressão.
📋 Aplicação em auditoria fiscal: O diagrama de dispersão entre faturamento e tributo recolhido é uma ferramenta clássica de seleção de contribuintes para fiscalização. Pontos abaixo da linha de tendência — contribuintes que recolhem menos tributo do que o esperado para seu nível de faturamento — são candidatos prioritários à auditoria.
🔍 4. Como esse Conteúdo Cai em Prova
📌 4.1 Questões sobre Boxplot
As bancas costumam apresentar um boxplot (ou sua descrição textual com valores de \( Q_1 \), mediana, \( Q_3 \), hastes e outliers) e pedir:
- Identificação do tipo de assimetria pela posição da mediana na caixa
- Cálculo dos limites de Tukey para verificar se um valor é outlier
- Comparação entre dois boxplots (qual tem maior dispersão, maior mediana, mais outliers)
- O que o boxplot mostra e o que ele não mostra (média, bimodalidade)
- Qual medida de posição está representada pela linha interna da caixa
📌 4.2 Questões sobre Diagrama de Dispersão
As bancas apresentam a descrição de uma nuvem de pontos ou o coeficiente de correlação e pedem:
- Identificação do tipo de correlação (positiva, negativa, nula)
- Avaliação da intensidade (forte, fraca, nula) com base na dispersão da nuvem
- Distinção entre correlação e causalidade
- Impacto de um outlier sobre a tendência observada
- Qual variável deve ser colocada no eixo X (variável explicativa) e no eixo Y (variável resposta)
📌 4.3 Armadilhas Recorrentes
- Confundir a haste mais longa com "mais dados" — hastes sempre representam 25% dos dados, independentemente do comprimento
- Afirmar que o boxplot mostra a média — ele mostra apenas a mediana
- Concluir causalidade a partir de correlação observada no diagrama de dispersão
- Confundir outlier no diagrama de dispersão (ponto fora da nuvem) com outlier no boxplot (ponto além da haste)
- Afirmar que a haste vai até o limite de Tukey calculado — ela vai até o último valor real dentro desse limite
💡 Dica final de prova: Quando a questão descrever um boxplot, monte mentalmente a figura com os valores fornecidos antes de responder. Calcule a AIQ, os limites de Tukey e a posição da mediana em relação aos quartis — essas três operações respondem a 90% das questões sobre boxplot.
🗂️ Resumo Final — O que ler na véspera da prova
- Boxplot: caixa de \( Q_1 \) a \( Q_3 \), linha interna = mediana, hastes até o último valor dentro dos limites de Tukey
- Hastes vão até o valor real mais extremo dentro do limite — não até o limite calculado
- Cada região do boxplot contém exatamente 25% dos dados, independentemente do comprimento
- Boxplot não mostra a média, não revela bimodalidade, não informa frequências absolutas
- Assimetria positiva no boxplot: mediana próxima de \( Q_1 \), haste direita mais longa
- Assimetria negativa no boxplot: mediana próxima de \( Q_3 \), haste esquerda mais longa
- Limites de Tukey: \( LI = Q_1 - 1{,}5 \times AIQ \) e \( LS = Q_3 + 1{,}5 \times AIQ \)
- Outlier extremo: usa multiplicador 3 em vez de 1,5 nos limites de Tukey
- Regra empírica (distribuição normal): 68% em \( \pm 1\sigma \), 95% em \( \pm 2\sigma \), 99,7% em \( \pm 3\sigma \)
- Outlier em auditoria: não é descartado — é investigado prioritariamente
- Diagrama de dispersão: representa pares \( (x_i, y_i) \) de duas variáveis quantitativas
- Correlação positiva: nuvem com tendência crescente — X e Y sobem juntos
- Correlação negativa: nuvem com tendência decrescente — X sobe, Y cai
- Correlação forte: pontos próximos de uma reta imaginária
- Correlação não implica causalidade — pode haver variável de confundimento
- Outlier no diagrama: ponto que quebra o padrão da nuvem — influencia fortemente a correlação
Exercícios de Fixação
Compartilhe nos comentários suas dúvidas, sugestões, críticas e elogios sobre esse conteúdo!
Comentários
Postar um comentário