Organização e Apresentação de Dados

Nesta segunda aula de Estatística, o foco é transformar dados brutos em informação útil. Depois de entender o que são variáveis e como classificá-las, o próximo passo natural é organizar esses dados de forma que possam ser lidos, interpretados e comparados — seja em uma tabela de frequências, seja em um gráfico. Para o auditor fiscal, isso é cotidiano: relatórios de arrecadação, distribuição de contribuintes por faixa de receita, histogramas de tempo de tramitação de processos. O conteúdo desta aula é muito visual e lógico, então o melhor caminho é ler com atenção os conceitos de frequência (absoluta, relativa e acumulada), garantir que você consegue montar e interpretar uma tabela, e depois ir direto para questões que apresentem tabelas ou gráficos incompletos para preencher ou analisar — esse é o formato favorito das bancas FGV, Cebraspe e FCC neste tópico.

📋 1. Por que organizar dados?

Dados brutos — uma lista de valores coletados sem organização — têm pouca utilidade prática. A distribuição de frequências é o instrumento que organiza esses dados em classes ou categorias, permitindo enxergar padrões, concentrações e dispersões. É a base de toda análise estatística descritiva.

💡 Dica de contexto: Pense em uma planilha com 10.000 notas fiscais auditadas. Você não consegue tirar conclusões olhando linha por linha. Ao agrupar por faixa de valor e calcular frequências, o padrão aparece em segundos. Isso é o que a distribuição de frequências faz.

🔢 2. Distribuição de Frequências

📌 2.1 Frequência Absoluta (fi)

É simplesmente a contagem direta de quantas vezes um valor ou categoria aparece no conjunto de dados. Representa a quantidade bruta de ocorrências.

Se de 200 contribuintes auditados, 80 estão no Simples Nacional, a frequência absoluta do Simples Nacional é \( f_i = 80 \).

⚠️ Atenção: A soma de todas as frequências absolutas deve ser igual ao total de elementos da amostra ou população: \( \sum f_i = n \). Se a banca apresentar uma tabela com esse somatório diferente de \( n \), há um erro — e isso pode ser exatamente o que está sendo cobrado.

📌 2.2 Frequência Relativa (fri)

Expressa a proporção de cada categoria em relação ao total. Pode ser apresentada como fração, decimal ou percentual. É calculada por:

\( fr_i = \frac{f_i}{n} \)

No exemplo anterior: \( fr_i = \frac{80}{200} = 0{,}40 = 40\% \). A soma de todas as frequências relativas deve ser sempre igual a 1 (ou 100%).

💡 Dica de prova: Bancas adoram dar a frequência relativa e pedir a absoluta (ou vice-versa), exigindo que você aplique a fórmula ao contrário: \( f_i = fr_i \times n \). Guarde essa relação.

📌 2.3 Frequência Acumulada (Fi e Fri)

A frequência acumulada soma progressivamente as frequências a partir da primeira classe até a classe de interesse. Existem dois tipos:

  • Acumulada absoluta (Fi): soma das frequências absolutas até a classe \( i \).
    \( F_i = f_1 + f_2 + \cdots + f_i \)
  • Acumulada relativa (Fri): soma das frequências relativas até a classe \( i \), expressa em proporção ou percentual.
    \( Fr_i = fr_1 + fr_2 + \cdots + fr_i \)

A frequência acumulada da última classe deve ser sempre igual a \( n \) (acumulada absoluta) ou 1 / 100% (acumulada relativa).

⚠️ Ponto de atenção: Frequência acumulada não é a mesma coisa que frequência total. Ela responde à pergunta "quantos elementos têm valor até determinado ponto?". Essa distinção é explorada em questões que pedem interpretação da curva ogiva.

📊 3. Tabelas de Distribuição de Frequências

A tabela de distribuição de frequências organiza os dados em classes (para variáveis contínuas ou discretas com muitos valores) ou categorias (para qualitativas), associando a cada uma as frequências calculadas.

🔧 3.1 Elementos de uma Tabela com Classes

  • Classe (intervalo): faixa de valores agrupados (ex.: de R$ 0 a R$ 10.000)
  • Limite inferior (Li) e superior (Ls): extremos do intervalo
  • Amplitude da classe (h): \( h = L_s - L_i \) — deve ser constante entre as classes sempre que possível
  • Ponto médio da classe (xi): \( x_i = \frac{L_i + L_s}{2} \) — usado como representante da classe nos cálculos de média
  • fi, fri, Fi, Fri: as quatro colunas de frequência

💡 Convenção de intervalo: A notação padrão em estatística usa intervalo fechado à esquerda e aberto à direita: \([L_i, L_s[\). Isso significa que o valor do limite superior pertence à classe seguinte. Bancas assumem essa convenção sem explicitar — fique atento.

🔧 3.2 Número de Classes — Regra de Sturges

Para definir quantas classes usar ao montar uma tabela, aplica-se a Regra de Sturges:

\(k = 1 + 3{,}322 \cdot \log_{10}(n)\)

onde \( k \) é o número de classes e \( n \) é o total de dados. O resultado é arredondado para o inteiro mais próximo. Para \( n = 100 \): \( k \approx 1 + 3{,}322 \times 2 = 7{,}64 \approx 8 \) classes.

⚠️ Alerta: A Regra de Sturges é uma sugestão, não uma obrigação. Bancas cobram o conceito e o cálculo, mas reconhecem que o analista tem liberdade para ajustar o número de classes conforme o contexto.

📈 4. Análise de Dados Categorizados

Quando os dados já estão agrupados em classes (dados categorizados), algumas medidas precisam ser calculadas de forma aproximada, usando o ponto médio de cada classe como representante. Isso se aplica, por exemplo, ao cálculo da média de uma distribuição tabelada.

A média de dados categorizados é calculada por:

\(\bar{x} = \frac{\sum (x_i \cdot f_i)}{n}\)

onde \( x_i \) é o ponto médio da classe e \( f_i \) é a frequência absoluta da classe. Essa fórmula aparece em questões que apresentam uma tabela de distribuição e pedem a média estimada.

💡 Aplicação em auditoria: Imagine uma tabela com a distribuição de valores de notas fiscais suspeitas por faixa. Para estimar o valor médio de todas as notas sem analisar cada uma individualmente, usa-se exatamente essa fórmula com o ponto médio de cada faixa.

📉 5. Representações Gráficas

📊 5.1 Histograma

O histograma é o gráfico de barras adjacentes (sem espaço entre elas) usado para representar distribuições de frequências de variáveis quantitativas contínuas (ou discretas com muitos valores). Cada barra representa uma classe:

  • O eixo horizontal (X) representa as classes (intervalos de valores)
  • O eixo vertical (Y) representa a frequência (absoluta, relativa ou densidade)
  • A área de cada barra é proporcional à frequência da classe — fundamental quando as classes têm amplitudes diferentes

⚠️ Atenção crítica: Quando as classes têm amplitudes diferentes, o eixo vertical deve representar a densidade de frequência \( d_i = \frac{f_i}{h_i} \), não a frequência direta. Usar a frequência bruta com classes de amplitudes diferentes distorce o gráfico. Bancas cobram essa distinção.

💡 Histograma ≠ Gráfico de barras: No gráfico de barras comum (usado para variáveis qualitativas), há espaço entre as barras. No histograma, as barras são contíguas, refletindo a continuidade dos dados. Essa diferença é cobrada diretamente.

📈 5.2 Curvas de Frequência (Polígono de Frequências)

O polígono de frequências é obtido conectando os pontos médios do topo de cada barra do histograma por segmentos de reta. A curva é "fechada" nos extremos, conectando-se ao eixo X nas classes fictícias anterior e posterior com frequência zero.

Quando o número de dados é muito grande e as classes muito estreitas, o polígono se aproxima de uma curva suave — a curva de frequência. A forma dessa curva revela características importantes da distribuição:

  • Simétrica (sino): média = mediana = moda — distribuição normal
  • Assimétrica à direita (positiva): cauda longa à direita; moda < mediana < média
  • Assimétrica à esquerda (negativa): cauda longa à esquerda; média < mediana < moda

💡 Macete da assimetria: A média é puxada pela cauda. Se a cauda está à direita, a média vai para a direita (fica maior que a mediana). Se está à esquerda, a média vai para a esquerda (fica menor que a mediana).

📈 5.3 Ogiva (Curva de Frequência Acumulada)

A ogiva é o gráfico da frequência acumulada — absoluta ou relativa. É construída plotando, para cada limite superior de classe, o valor acumulado até aquele ponto. Sua forma é sempre crescente (nunca decresce) e termina em \( n \) ou 100%.

A ogiva permite responder perguntas do tipo: "Qual percentual de contribuintes tem receita até R$ 500.000?" — basta localizar esse valor no eixo X e ler o percentual acumulado no eixo Y.

📋 Aplicação de auditoria: A ogiva é usada em análise de risco para identificar o ponto de corte que separa, por exemplo, os 20% de contribuintes com maior valor de operações suspeitas — uma aplicação direta da frequência acumulada relativa.

📊 5.4 Outros Gráficos Relevantes para Concursos

  • Gráfico de barras / colunas: variáveis qualitativas ou discretas com poucos valores — barras com espaço entre elas
  • Gráfico de setores (pizza): representa proporções (frequências relativas) de categorias — ângulo de cada setor = \( fr_i \times 360° \)
  • Ramo e folhas (stem-and-leaf): organiza dados preservando os valores originais; útil para conjuntos pequenos
  • Boxplot (diagrama de caixas): representa mediana, quartis e outliers — mais cobrado no tópico de medidas de posição

🗂️ Resumo Final — O que ler na véspera da prova

  • Frequência absoluta (fi): contagem direta — soma deve ser igual a n
  • Frequência relativa (fri): proporção em relação ao total — soma deve ser igual a 1 ou 100%
  • Frequência acumulada: soma progressiva — responde "quantos têm valor até X?"
  • Fórmula de conversão: \( fr_i = f_i / n \) e \( f_i = fr_i \times n \) — bancas exploram os dois sentidos
  • Amplitude da classe: \( h = L_s - L_i \) — deve ser constante; ponto médio: \( x_i = (L_i + L_s)/2 \)
  • Regra de Sturges: \( k = 1 + 3{,}322 \cdot \log_{10}(n) \) — número sugerido de classes
  • Média de dados categorizados: \( \bar{x} = \sum(x_i \cdot f_i) / n \) — usa o ponto médio de cada classe
  • Histograma: barras adjacentes, variável contínua — área proporcional à frequência
  • Histograma ≠ gráfico de barras: histograma não tem espaço entre barras
  • Classes de amplitude diferente: usar densidade \( d_i = f_i / h_i \) no eixo Y do histograma
  • Polígono de frequências: une pontos médios dos topos das barras — fechado nos extremos
  • Curva simétrica: média = mediana = moda
  • Assimetria positiva (cauda à direita): moda < mediana < média
  • Assimetria negativa (cauda à esquerda): média < mediana < moda
  • Ogiva: curva sempre crescente da frequência acumulada — usada para leitura de percentis
  • Gráfico de setores: ângulo do setor = \( fr_i \times 360° \)

Exercícios de Fixação

Questão 1 de 20

Compartilhe nos comentários suas dúvidas, sugestões, críticas e elogios sobre esse conteúdo!

Comentários