Uma das seções do nosso site mais visitadas é a calculadora de amostras: uma aplicação online que te indica quantas pessoas você deveria entrevistar para estimar um dado de uma população sem superar um nível máximo de erro.
Frequentemente recebemos consultas sobre o que faz essa calculadora: que fórmulas utiliza, o que significam termos como margem de erro ou nível de confiança. Hoje te explicamos como funciona exatamente e que tamanho amostral você precisa para abordar uma pesquisa.
O problema
Imagine que você quer saber qual porcentagem da população brasileira entre 15 e 65 anos fuma. Ou quantos minutos por dia assistem à televisão. Obviamente, o ideal seria perguntar a todos os membros da população (136 milhões), mas isso é extremamente caro. Por isso, normalmente optamos por entrevistar uma parte da população, o que é conhecido como uma amostra. Como uma amostra não contém todos os indivíduos, inevitavelmente vamos cometer algum erro em nossas estimativas. Quanto menor for a amostra, esse erro poderá ser potencialmente maior.
Mas é possível garantir que o erro de estimativa não supere certos limites? Sim, é possível e vamos ver como.
Um pouco de teoria: o teorema central do limite
Para começar, simplifiquemos um pouco o problema. A população brasileira entre 15 e 65 anos é muito grande, podemos considerá-la uma população infinita. Essa suposição é muito prática: permite aceitar que toda vez que seleciono um indivíduo para minha amostra, sua probabilidade de ter a característica que quero medir (por exemplo, fumar) é constante, independentemente dos indivíduos que já tenha selecionado anteriormente. Veremos depois o que fazer se não posso aceitar a suposição de população infinita.
Se aceitarmos essa simplificação, podemos utilizar o teorema central do limite. Este teorema diz que se obtivermos múltiplas amostras de
Vejamos o que isso significa na prática. Voltemos à população brasileira, aos 136 milhões. Imagine por um momento que pudéssemos observar todos os indivíduos e medir quanto tempo assistem à televisão. Uns assistirão pouco, outros muito… mas com todos os indivíduos poderíamos calcular uma média exata (suponhamos 400 minutos). Também poderíamos calcular o desvio padrão da população, uma medida da dispersão dos indivíduos em relação à média (por exemplo, 100 minutos).
Agora suponha que obtemos uma amostra aleatória simples de
Amostra 1 -> Média observada 380
Amostra 2 -> Média observada 415
Amostra 3 -> Média observada 405
Amostra 4 -> Média observada 394
...
O que nos diz o teorema central do limite é que essas médias que observamos nas amostras de
O esquema a seguir pode te ajudar a entender o teorema central do limite.
O teorema central do limite funciona mesmo que a população original não se distribua de forma Normal. Ele se cumpre para qualquer distribuição. No final, as médias das amostras se distribuem de forma Normal. E isso é o que nos permite medir e limitar o erro de nossas estimativas.
Pode te interessar: Questionário e pesquisa: como se diferenciam?, O que é uma pesquisa por amostragem?, Amostragem, o que é e por que funciona, Tipos de itens em pesquisas online.
Margem de erro e nível de confiança
Já sabemos o que podemos esperar se obtivermos muitas amostras de nossa população. Mas, na prática, temos apenas uma amostra de tamanho
Uma distribuição Normal tende a estar concentrada em torno da média. E sabemos em que medida. Por exemplo, sabemos que em 90% dos casos, a média da amostra estará em um intervalo
A relação entre "os 90% dos casos" (conhecido como nível de confiança) e o valor "1.645" (conhecido como Z-score) é uma propriedade da distribuição Normal. Podemos definir outros níveis de confiança. Habitualmente, são usados níveis de confiança (NC) de 80%, 90%, 95% e 99%, aos quais correspondem os Z-scores 1.282, 1.645, 1.960 e 2.576.
Nível de confiança (NC) |
Z-score
|
80% | 1.282 |
90% | 1.645 |
95% | 1.960 |
97% | 2.170 |
99% | 2.576 |
Portanto, de forma geral, podemos dizer que a média que medimos na amostra (
A expressão anterior se lê assim: a probabilidade de que a média
Como o que queremos estimar é justamente a média da população
Para entender melhor essa expressão, retomemos o exemplo anterior sobre a população brasileira. Suponha que obtemos uma amostra de
Graças ao teorema central do limite, podemos dizer que em 90% dos casos, a média de consumo de TV da população brasileira está entre 407.6 e 422.4 minutos. Em vez de dar uma estimativa pontual (415), estamos dando uma estimativa com uma margem de erro (±7.4) e o nível de confiança que temos de que a realidade esteja dentro da margem de erro (90%).
E como isso me ajuda a decidir o tamanho da amostra?
Muito fácil, você só precisa decidir de antemão qual é o erro máximo que está disposto a aceitar (
Sabendo que o erro máximo é:
basta inverter essa expressão:
Voltando ao nosso exemplo. Imagine que ainda não fizemos a pesquisa, mas queremos ter um nível de confiança de 90% de que a média que observamos na amostra não se desvie da realidade em mais de ±5 minutos. A amostra que precisamos será de:
Arredondamos para cima (1,082.4 → 1,083) porque queremos garantir que não superamos o erro de 5 minutos, mas é um detalhe sem muita importância. Observe que a amostra resultante é maior do que a anterior de 500 indivíduos, porque o erro máximo que pedimos (5) é menor do que o que tínhamos antes (7.4).
E se o que eu quero estimar é uma proporção?
Suponha que, em vez de estimar uma média (minutos de TV), quero estimar uma proporção (percentual de fumantes). Nesse caso, o problema é mais simples, podemos simplificar as fórmulas anteriores de forma muito conveniente.
Chamemos
Podemos simplificar um pouco mais essa expressão. Antes de fazer a pesquisa, não sabemos qual proporção de fumantes vamos encontrar (para isso fazemos a pesquisa). Mas podemos nos colocar no pior caso. Observe que a quantidade
Se usar esse cenário pessimista, resulta:
Ao contrário do caso em que estimávamos minutos de TV vistos, não precisamos fazer nenhuma hipótese sobre o desvio padrão da população de origem, porque podemos usar o pior caso: a máxima variação possível em uma proporção.
Como se usa essa fórmula? Suponha que queremos fazer uma pesquisa entre brasileiros para estimar qual percentual da população fuma e estamos dispostos a aceitar um erro máximo de 5% com um nível de confiança de 90%. Resulta:
Precisamos entrevistar apenas 271 pessoas. Importante: o erro é definido em termos absolutos. Ou seja, se observamos um 40% de fumantes, teremos 90% de confiança de que a proporção real na população está entre 40%-5% e 40%+5% (não entre 40%×0.95 e 40%×1.05).
E se a população não for infinita?
Costuma-se aceitar que uma população com mais de 100.000 indivíduos é infinita (alguns autores consideram 50.000 como o mínimo exigível). Em geral, na pesquisa de mercados, as populações objeto de estudo costumam cumprir esse requisito. Mas em determinados casos podemos ter populações pequenas. Por exemplo, uma pesquisa com funcionários de uma empresa.
Nesses casos, as fórmulas que vimos devem ser modificadas um pouco. Vamos ajudá-lo a entender o porquê. Imagine um caso muito extremo em que há apenas 10 pessoas na população, metade fumantes e a outra metade não fumantes. E você quer uma amostra de 2 pessoas.
Inicialmente, você tem 50% de probabilidade de que o primeiro indivíduo de sua amostra seja fumante. Você seleciona um indivíduo e fuma. A probabilidade de que o segundo indivíduo seja fumante já não é 50%, porque restam apenas 4 fumantes entre os 9 indivíduos não selecionados. Agora a probabilidade de que você selecione um fumante é 4/9=44%. A probabilidade de que fumem os indivíduos a serem selecionados depende dos já selecionados.
Essa dificuldade pode ser ignorada quando a população é de centenas de milhares de indivíduos (quando
Essa fórmula ajusta o tamanho da amostra para garantir que os elementos selecionados tenham proporções representativas. Vamos ver como se aplica.
Imagine que deseja realizar uma pesquisa em uma população de 50 pessoas para avaliar a porcentagem de fumantes, onde calculou previamente que precisava entrevistar 50 pessoas. Nesse caso, o que você deve fazer é:
O tamanho da amostra ajustada seria de 25 indivíduos. Como você vê, isso não se ajusta ao que observou antes, porque a porcentagem da população influencia o tamanho da amostra necessário. Esse ajuste é feito para garantir que a amostra seja representativa da população total.
Mas e se o orçamento for limitado?
Os cálculos anteriores se baseiam na premissa de que há um número suficiente de pesquisas. No entanto, na prática, o orçamento pode ser um fator limitante. Sugiro que você faça uma análise de custo-benefício para garantir que o tamanho da amostra seja economicamente viável.
A relação entre a população, o tamanho da amostra, o erro e o custo deve ser avaliada cuidadosamente para garantir que as metas do estudo sejam cumpridas. Em alguns casos, pode ser necessário ajustar suas expectativas de precisão ou o nível de confiança à medida que determina seu tamanho de amostra.