Como Calcular Intervalos de Confiança
Guia passo a passo para calcular intervalos de confiança. Aprenda quando usar intervalos z vs. t, como escolher o nível de confiança e como interpretar os resultados.
O Que É um Intervalo de Confiança?
Um intervalo de confiança é uma faixa de valores, calculada a partir de dados amostrais, que provavelmente contém o verdadeiro parâmetro populacional. Em vez de reportar uma única estimativa pontual (como uma média amostral), um intervalo de confiança fornece uma faixa que considera a variabilidade amostral. Por exemplo, um intervalo de confiança de 95% para uma média populacional pode ser (42,3; 47,7), significando que baseado nos dados amostrais, estima-se que a verdadeira média populacional esteja entre 42,3 e 47,7. A largura do intervalo reflete a precisão da estimativa: intervalos mais estreitos indicam estimativas mais precisas.
Nível de Confiança Explicado
O nível de confiança, comumente 90%, 95% ou 99%, descreve com que frequência o método de construção do intervalo capturaria o verdadeiro parâmetro se você repetisse o processo de amostragem muitas vezes. Um nível de confiança de 95% significa que se você tirasse 100 amostras aleatórias independentes e calculasse um intervalo de 95% de cada uma, cerca de 95 desses intervalos conteriam o verdadeiro parâmetro. Não significa que há 95% de probabilidade de o verdadeiro valor estar em qualquer intervalo particular. Níveis de confiança mais altos produzem intervalos mais amplos porque você precisa de uma faixa maior para ter mais certeza de que o parâmetro é capturado.
A Fórmula do Intervalo Z
Quando o desvio padrão populacional (sigma) é conhecido e o tamanho da amostra é grande (tipicamente n >= 30), usa-se a fórmula do intervalo z: IC = x-barra mais ou menos z* vezes (sigma / raiz(n)). Aqui x-barra é a média amostral, z* é o valor crítico z para o nível de confiança escolhido (1,645 para 90%, 1,96 para 95%, 2,576 para 99%), sigma é o desvio padrão populacional e n é o tamanho da amostra. O termo sigma / raiz(n) é chamado erro padrão e mede quanto a média amostral deve variar de amostra para amostra. Esta fórmula assume que os dados vêm de uma população normalmente distribuída ou que a amostra é grande o suficiente para o Teorema Central do Limite se aplicar.
A Fórmula do Intervalo T
Quando o desvio padrão populacional é desconhecido (cenário típico do mundo real), substitui-se sigma pelo desvio padrão amostral s e usa-se a distribuição t em vez da distribuição z. A fórmula se torna: IC = x-barra mais ou menos t* vezes (s / raiz(n)), onde t* é o valor crítico da distribuição t com n - 1 graus de liberdade. A distribuição t tem caudas mais pesadas que a normal padrão, produzindo intervalos ligeiramente mais amplos para considerar a incerteza adicional de estimar sigma. Conforme o tamanho da amostra cresce, a distribuição t se aproxima da distribuição z e a diferença entre os dois métodos se torna desprezível.
Escolhendo o Tamanho de Amostra Correto
A largura de um intervalo de confiança depende de três fatores: o nível de confiança, a variabilidade dos dados e o tamanho da amostra. Como você tipicamente não pode controlar os dois primeiros, o tamanho da amostra é a alavanca principal para controlar a precisão. A fórmula da margem de erro E = z* vezes (sigma / raiz(n)) pode ser resolvida para n para encontrar o tamanho mínimo de amostra necessário: n = (z* vezes sigma / E) ao quadrado. Por exemplo, para alcançar uma margem de erro de 2 com sigma = 10 a 95% de confiança, você precisa de n = (1,96 vezes 10 / 2) ao quadrado = 96,04, portanto ao menos 97 observações.
Intervalos de Confiança para Proporções
Ao estimar uma proporção populacional (como a porcentagem de eleitores que favorecem um candidato), a fórmula se ajusta para usar a proporção em vez da média. O intervalo de confiança para uma proporção é: p-chapéu mais ou menos z* vezes raiz(p-chapéu vezes (1 - p-chapéu) / n), onde p-chapéu é a proporção amostral e n é o tamanho da amostra. Esta fórmula requer que tanto n vezes p-chapéu quanto n vezes (1 - p-chapéu) sejam pelo menos 10 para garantir que a distribuição amostral seja aproximadamente normal. Para amostras pequenas ou proporções próximas de 0 ou 1, métodos alternativos como o intervalo de Wilson fornecem cobertura mais precisa.
Erros e Interpretações Equivocadas Comuns
A interpretação equivocada mais comum de um intervalo de confiança é dizer "há 95% de probabilidade de a verdadeira média estar dentro deste intervalo." O verdadeiro parâmetro é um valor fixo (embora desconhecido), não uma variável aleatória; a aleatoriedade está no intervalo em si. Outro erro comum é usar o intervalo z quando sigma é desconhecido, o que subestima a largura do intervalo. Além disso, intervalos de confiança assumem amostragem aleatória; intervalos calculados de amostras enviesadas ou de conveniência podem não ter a taxa de cobertura declarada. Finalmente, não confunda intervalo de confiança com intervalo de predição, que estima onde uma nova observação individual cairá e é sempre mais amplo.
Exemplos Práticos
Suponha que uma fábrica amostra 50 lâmpadas e encontra vida útil média de 1200 horas com desvio padrão amostral de 100 horas. Um intervalo de confiança de 95% usando a distribuição t (t* = 2,009 para 49 graus de liberdade) resulta em: 1200 mais ou menos 2,009 vezes (100 / raiz(50)) = 1200 mais ou menos 28,4, ou (1171,6; 1228,4). Isso significa que a fábrica pode ter 95% de confiança de que a verdadeira vida útil média de todas as lâmpadas produzidas está entre aproximadamente 1172 e 1228 horas. Se a fábrica precisa de um intervalo mais estreito, pode aumentar o tamanho da amostra ou aceitar um nível de confiança menor.