Gráficos e Identificação de Outliers

Nesta quinta aula de Estatística, o foco é a leitura e interpretação visual de dados — uma competência cada vez mais cobrada em concursos de auditoria. Depois de dominar medidas de posição e dispersão, o próximo passo é saber extrair essas informações diretamente de gráficos, especialmente o boxplot e o diagrama de dispersão. Em provas de auditoria, raramente você verá um conjunto de dados brutos para calcular do zero: o mais comum é uma figura ou tabela resumida que exige interpretação. O examinador quer saber se você entende o que o gráfico comunica — assimetria, outliers, correlação, concentração. A estratégia de estudo é simples: leia os conceitos, visualize mentalmente cada gráfico descrito e depois resolva questões que apresentem imagens ou descrições de boxplots e diagramas de dispersão pedindo conclusões — esse é o formato favorito de FGV, Cebraspe e FCC neste tópico.

📦 1. Boxplot — Revisão e Aprofundamento

O boxplot (diagrama de caixas) é o gráfico mais versátil da estatística descritiva. Com uma única figura, ele comunica simultaneamente: posição central, dispersão, assimetria e presença de outliers. Por isso, é o instrumento de análise exploratória mais cobrado em concursos de auditoria.

📌 1.1 Anatomia Completa do Boxplot

Caixa (box): retângulo que vai de \( Q_1 \) a \( Q_3 \) — contém exatamente os 50% centrais dos dados
Linha mediana: traço interno à caixa que marca \( Q_2 \) (mediana) — pode estar em qualquer posição dentro da caixa
Hastes (whiskers): linhas que partem das bordas da caixa em direção aos extremos, até o valor real mais extremo dentro dos limites de Tukey — não até os limites calculados em si
Limites de Tukey: fronteiras matemáticas: \( LI = Q_1 - 1{,}5 \times AIQ \) e \( LS = Q_3 + 1{,}5 \times AIQ \)
Outliers: pontos individuais plotados além das hastes — valores que ultrapassam os limites de Tukey

⚠️ Detalhe crítico: As hastes vão até o último valor real dentro do limite de Tukey — não até o limite calculado. Se o limite superior for 150 mas o maior valor não-outlier for 140, a haste vai até 140. Bancas exploram exatamente essa distinção.

📌 1.2 Leitura da Assimetria pelo Boxplot

A posição da mediana dentro da caixa e o comprimento relativo das hastes revelam a assimetria da distribuição:

Simétrica: mediana centralizada na caixa + hastes de comprimento similar
Assimétrica positiva (cauda à direita): mediana próxima de \( Q_1 \) + haste superior mais longa + outliers à direita
Assimétrica negativa (cauda à esquerda): mediana próxima de \( Q_3 \) + haste inferior mais longa + outliers à esquerda

💡 Macete visual: Veja para qual lado a caixa está "comprimida". O lado comprimido é onde os dados se concentram; a cauda está no lado esticado. Cauda à direita = assimetria positiva = \( Mo < Md < \bar{x} \).

📌 1.3 O que o Boxplot NÃO mostra

Não mostra a média aritmética (apenas a mediana)
Não revela se a distribuição é unimodal, bimodal ou multimodal
Não informa quantos dados estão em cada região (apenas a proporção — 25% por quarto)
Não mostra os valores individuais (exceto os outliers)

⚠️ Pegadinha frequente: "A haste superior mais longa indica que há mais dados naquela região." ERRADO. As hastes e os quartis sempre dividem os dados em partes de 25% cada — o comprimento da haste indica apenas o espalhamento desses 25%, não a quantidade.

📌 1.4 Comparação de Boxplots

Colocar dois ou mais boxplots lado a lado é a forma mais eficiente de comparar distribuições. Permite identificar simultaneamente:

Qual grupo tem maior valor central (posição das medianas)
Qual grupo é mais disperso (largura das caixas e comprimento das hastes)
Qual grupo tem distribuição mais assimétrica (posição da mediana na caixa)
Qual grupo tem mais outliers (pontos além das hastes)

📋 Aplicação em auditoria: Boxplots comparativos são usados para confrontar a distribuição de valores declarados por contribuintes de um mesmo setor em diferentes regiões ou períodos — desvios sistemáticos de posição ou dispersão podem indicar padrões de evasão ou inconsistência fiscal.

🎯 2. Identificação de Outliers

Outliers (valores atípicos) são observações que se afastam significativamente do padrão do conjunto. Sua identificação é central em auditoria — um valor atípico pode representar erro de registro, fraude ou simplesmente uma operação legítima mas incomum.

📌 2.1 Regra de Tukey (Método dos Quartis)

É o método mais cobrado em concursos. Define os limites:

\( LI = Q_1 - 1{,}5 \times AIQ \) — limite inferior
\( LS = Q_3 + 1{,}5 \times AIQ \) — limite superior

Onde \( AIQ = Q_3 - Q_1 \). Valores fora desse intervalo são outliers. Alguns autores definem ainda outliers extremos usando o multiplicador 3 em vez de 1,5.

💡 Dica de cálculo: Memorize a sequência: (1) calcule a AIQ, (2) multiplique por 1,5, (3) subtraia de \( Q_1 \) para o limite inferior e some a \( Q_3 \) para o superior, (4) compare cada valor suspeito com esses limites. Simples e mecânico.

📌 2.2 Método do Desvio Padrão (Regra Empírica)

Em distribuições aproximadamente normais, aplica-se a regra empírica (68-95-99,7):

Cerca de 68% dos dados estão entre \( \mu - \sigma \) e \( \mu + \sigma \)
Cerca de 95% dos dados estão entre \( \mu - 2\sigma \) e \( \mu + 2\sigma \)
Cerca de 99,7% dos dados estão entre \( \mu - 3\sigma \) e \( \mu + 3\sigma \)

Um valor além de \( \pm 3\sigma \) da média é considerado outlier neste critério — com probabilidade menor que 0,3% de ocorrência em uma distribuição normal.

⚠️ Limitação: A regra empírica pressupõe distribuição aproximadamente normal. Para distribuições assimétricas (como receitas ou valores de multas), a regra de Tukey é mais robusta e adequada.

📌 2.3 Tratamento de Outliers

Identificar um outlier não significa automaticamente excluí-lo. As opções são:

Investigar: verificar se é erro de digitação, fraude ou operação legítima incomum
Manter: se for um valor legítimo e relevante para a análise
Excluir ou transformar: se for comprovadamente um erro ou se distorcer gravemente as análises
Usar medidas robustas: substituir a média pelo mediana ou o desvio padrão pela AIQ quando há outliers

💡 Perspectiva do auditor: Em fiscalização tributária, o outlier não é descartado — ele é o principal alvo de investigação. Um contribuinte com valor de operações muito acima do padrão do setor é exatamente quem merece atenção prioritária.

📈 3. Diagrama de Dispersão

O diagrama de dispersão (ou gráfico de dispersão) representa a relação entre duas variáveis quantitativas. Cada ponto do gráfico corresponde a um par de valores \( (x_i, y_i) \) de um mesmo elemento. É o instrumento visual para identificar correlação entre variáveis.

📌 3.1 Padrões de Correlação no Diagrama

Correlação positiva: pontos distribuídos em tendência crescente (da esquerda-baixo para direita-cima) — quando X aumenta, Y tende a aumentar
Correlação negativa: pontos em tendência decrescente (da esquerda-cima para direita-baixo) — quando X aumenta, Y tende a diminuir
Sem correlação (nula): pontos dispersos sem padrão direcional identificável
Correlação não linear: pontos formam uma curva (parabólica, exponencial etc.) em vez de uma linha reta

💡 Exemplo prático: Em auditoria, um diagrama entre "valor de receita declarada" e "valor de ICMS recolhido" deveria mostrar correlação positiva forte. Contribuintes cujo ponto foge do padrão linear (outliers no diagrama) merecem atenção especial.

📌 3.2 Intensidade da Correlação

A nuvem de pontos revela visualmente a intensidade da associação:

Correlação forte: pontos próximos de uma linha reta imaginária — pouca dispersão em torno da tendência
Correlação fraca: pontos muito dispersos em torno da tendência — padrão existe mas é impreciso
Correlação perfeita: todos os pontos sobre uma linha reta (raramente observada em dados reais)

⚠️ Correlação não implica causalidade: Mesmo que o diagrama mostre correlação forte entre duas variáveis, isso não prova que uma causa a outra. Pode haver uma terceira variável (variável de confundimento) que explica ambas. Esse princípio é cobrado conceitualmente em questões de interpretação.

📌 3.3 Outliers no Diagrama de Dispersão

No diagrama de dispersão, outliers são pontos que se afastam do padrão geral da nuvem — seja por terem valor muito extremo em \( x \) ou em \( y \), seja por quebrarem o padrão de correlação dos demais pontos. Esses pontos influenciam fortemente o coeficiente de correlação e a linha de regressão.

📋 Aplicação em auditoria fiscal: O diagrama de dispersão entre faturamento e tributo recolhido é uma ferramenta clássica de seleção de contribuintes para fiscalização. Pontos abaixo da linha de tendência — contribuintes que recolhem menos tributo do que o esperado para seu nível de faturamento — são candidatos prioritários à auditoria.

🔍 4. Como esse Conteúdo Cai em Prova

📌 4.1 Questões sobre Boxplot

As bancas costumam apresentar um boxplot (ou sua descrição textual com valores de \( Q_1 \), mediana, \( Q_3 \), hastes e outliers) e pedir:

Identificação do tipo de assimetria pela posição da mediana na caixa
Cálculo dos limites de Tukey para verificar se um valor é outlier
Comparação entre dois boxplots (qual tem maior dispersão, maior mediana, mais outliers)
O que o boxplot mostra e o que ele não mostra (média, bimodalidade)
Qual medida de posição está representada pela linha interna da caixa

📌 4.2 Questões sobre Diagrama de Dispersão

As bancas apresentam a descrição de uma nuvem de pontos ou o coeficiente de correlação e pedem:

Identificação do tipo de correlação (positiva, negativa, nula)
Avaliação da intensidade (forte, fraca, nula) com base na dispersão da nuvem
Distinção entre correlação e causalidade
Impacto de um outlier sobre a tendência observada
Qual variável deve ser colocada no eixo X (variável explicativa) e no eixo Y (variável resposta)

📌 4.3 Armadilhas Recorrentes

Confundir a haste mais longa com "mais dados" — hastes sempre representam 25% dos dados, independentemente do comprimento
Afirmar que o boxplot mostra a média — ele mostra apenas a mediana
Concluir causalidade a partir de correlação observada no diagrama de dispersão
Confundir outlier no diagrama de dispersão (ponto fora da nuvem) com outlier no boxplot (ponto além da haste)
Afirmar que a haste vai até o limite de Tukey calculado — ela vai até o último valor real dentro desse limite

💡 Dica final de prova: Quando a questão descrever um boxplot, monte mentalmente a figura com os valores fornecidos antes de responder. Calcule a AIQ, os limites de Tukey e a posição da mediana em relação aos quartis — essas três operações respondem a 90% das questões sobre boxplot.

🗂️ Resumo Final — O que ler na véspera da prova

Boxplot: caixa de \( Q_1 \) a \( Q_3 \), linha interna = mediana, hastes até o último valor dentro dos limites de Tukey
Hastes vão até o valor real mais extremo dentro do limite — não até o limite calculado
Cada região do boxplot contém exatamente 25% dos dados, independentemente do comprimento
Boxplot não mostra a média, não revela bimodalidade, não informa frequências absolutas
Assimetria positiva no boxplot: mediana próxima de \( Q_1 \), haste direita mais longa
Assimetria negativa no boxplot: mediana próxima de \( Q_3 \), haste esquerda mais longa
Limites de Tukey: \( LI = Q_1 - 1{,}5 \times AIQ \) e \( LS = Q_3 + 1{,}5 \times AIQ \)
Outlier extremo: usa multiplicador 3 em vez de 1,5 nos limites de Tukey
Regra empírica (distribuição normal): 68% em \( \pm 1\sigma \), 95% em \( \pm 2\sigma \), 99,7% em \( \pm 3\sigma \)
Outlier em auditoria: não é descartado — é investigado prioritariamente
Diagrama de dispersão: representa pares \( (x_i, y_i) \) de duas variáveis quantitativas
Correlação positiva: nuvem com tendência crescente — X e Y sobem juntos
Correlação negativa: nuvem com tendência decrescente — X sobe, Y cai
Correlação forte: pontos próximos de uma reta imaginária
Correlação não implica causalidade — pode haver variável de confundimento
Outlier no diagrama: ponto que quebra o padrão da nuvem — influencia fortemente a correlação

Compartilhe nos comentários suas dúvidas, sugestões, críticas e elogios sobre esse conteúdo!

Contadoria Geral