Amostragem probabilística: Amostra estratificada

Vimos no post anterior a definição, as vantagens e as desvantagens da amostragem aleatória simples. Hoje vamos mostrar outra técnica um pouco mais sofisticada: a amostragem estratificada.
Essa técnica, pertencente à família de amostragens probabilísticas, antes de iniciar o processo de amostragem, divide toda a população objeto de estudo em diferentes subpopulações ou estratos disjuntos, de maneira que um indivíduo só pode pertencer a um estrato. Uma vez definidos os estratos, a amostra é criada selecionando separadamente indivíduos de cada estrato, utilizando qualquer técnica de amostragem. Se, por exemplo, utilizarmos a amostragem aleatória simples em cada estrato, falaremos de amostragem aleatória estratificada. Este é o caso mais comum, mas da mesma forma poderíamos usar outras técnicas de amostragem em cada estrato (amostragem sistemática, aleatória com reposição, etc.).

Muestreo estratificado esquema

 

Os estratos costumam ser criados a partir de grupos homogêneos de indivíduos, que por sua vez são heterogêneos entre diferentes grupos. Por exemplo, se em um estudo esperamos encontrar um comportamento muito diferente entre homens e mulheres, pode ser conveniente definir dois estratos, um para cada sexo. Se a seleção desses estratos for correta:

  1. Os homens deveriam se comportar de maneira parecida entre si.
  2. As mulheres deveriam se comportar de forma muito similar entre elas.
  3. Homens e mulheres deveriam mostrar comportamentos distintos entre si.

Se a condição anterior for atendida (estratos homogêneos internamente e heterogêneos entre si), o uso da amostragem aleatória estratificada reduz o erro amostral em relação a uma amostragem aleatória convencional, melhorando a precisão de nossos resultados.
É relativamente comum definir estratos de acordo com algumas variáveis sociodemográficas da população, como idade, sexo, classe social ou região geográfica. Essas variáveis permitem dividir facilmente a amostra em grupos mutuamente exclusivos e, com bastante frequência, permitem discriminar comportamentos diferentes dentro da população.

Tipos de amostragem estratificada

Dependendo do tamanho que atribuímos aos estratos, falaremos de diferentes tipos de amostragem estratificada. Também se costuma falar de diferentes formas de "afixação" da amostra em estratos.

1. Amostragem estratificada proporcionada

Quando dividimos uma população em estratos, é comum que o tamanho desses estratos seja diferente. Por exemplo, se quisermos estudar a porcentagem da população que fuma no México e achamos que a idade pode ser um bom critério para estratificar (ou seja, acreditamos que existem diferenças importantes nos hábitos de fumar dependendo da idade), podemos definir 3 estratos: menores de 20 anos, de 20 a 44 anos e maiores de 44 anos. É de se esperar que, ao dividir toda a população mexicana nesses 3 estratos, não resultem grupos de igual tamanho. De fato, se olharmos dados oficiais, obtemos:

  1. Estrato 1 - População mexicana menor de 19 anos: 42,4 milhões (41,0%)
  2. Estrato 2 - População mexicana de 20 a 44 anos: 37,6 milhões (36,3%)
  3. Estrato 3 - População mexicana maior de 44 anos: 23,5 milhões (22,7%)

Se usarmos amostragem estratificada proporcionada, a amostra deve ter estratos que mantenham as mesmas proporções observadas na população. Se neste exemplo quisermos criar uma amostra de 1.000 indivíduos, os estratos terão que ter um tamanho como segue:

Estrato População Proporção Amostra
1 42,4M 41,0% 410
2 37,6M 36,3% 363
3 23,5M 22,7% 227

 

2. Mostragem estratificada uniforme

Falaremos de uma afixação uniforme quando atribuirmos o mesmo tamanho de amostra a todos os estratos definidos, independentemente do peso que esses estratos têm na população. Seguindo com o exemplo anterior, uma amostragem estratificada uniforme definiria a seguinte amostra por estrato:

Estrato População Proporção Amostra
1 42,4M 41,0% 334
2 37,6M 36,3% 333
3 23,5M 22,7% 333

Como você pode ver, o tamanho da amostra é igual em todos os estratos (exceto por pequenas diferenças devido ao arredondamento necessário resultante de dividir 1.000 por 3), em vez de seguir as proporções da população.
Essa técnica favorece os estratos que têm menos peso na população, equiparando-os em importância aos estratos mais relevantes. Globalmente, reduz a eficiência da nossa amostra (menor precisão nos resultados globais), mas, como contrapartida, permite estudar características particulares de todos os estratos com uma precisão mínima maior. No nosso exemplo, se quisermos emitir alguma afirmação específica sobre a população do estrato 3 (maiores de 44 anos), poderemos fazê-lo com menos erro amostral se utilizarmos uma amostra de 333 unidades do que se fizermos com uma amostra de 227 (como ocorreria na amostragem estratificada proporcional).

3. Amostragem estratificada ótima (em relação à desvio padrão)

Neste caso, o tamanho dos estratos na amostra não mantém proporcionalidade com a população. Pelo contrário, trata-se de otimizar o tamanho amostral de cada estrato a fim de reduzir a margem de erro global, levando em conta não apenas o tamanho de cada estrato na população, mas também seu desvio padrão.
Essa otimização basicamente dedica mais unidades de amostra do que corresponderiam em uma amostragem proporcional àqueles estratos que têm mais variabilidade e que, portanto, são mais difíceis de estimar.
A forma exata de calcular o tamanho ótimo da amostra por estrato é um tema um pouco mais técnico, mas você tem uma explicação detalhada neste post, caso seja alguém que gosta de estatística.

Eficiência das diferentes amostragens estratificadas

As perguntas inevitáveis são: quando é conveniente empregar a estratificação? Que tipo de estratificação é mais conveniente?

  • A amostragem estratificada proporcional sempre produz um erro amostral menor ou igual ao da amostragem aleatória simples, ou seja, é mais precisa. A igualdade ocorre quando as médias ou as proporções que estamos analisando são iguais em todos os estratos. Portanto, a estratificação produz mais benefícios quanto mais diferentes forem os estratos entre si.

    A amostragem estratificada ótima é sempre igual ou mais precisa do que a amostragem estratificada proporcional. Ambos os métodos são igualmente precisos quando os desvios padrões dentro de cada estrato são iguais, caso em que ambos os métodos são totalmente equivalentes. Portanto, a estratificação ótima produz mais benefícios quanto maiores forem as diferenças entre os desvios dentro de cada grupo, situação em que podemos reduzir o tamanho amostral dos grupos mais homogêneos em benefício dos mais heterogêneos. Por outro lado, é um método mais complexo e que requer ter muita informação prévia da amostra que estamos estudando, algo que normalmente não temos (raramente conhecemos os desvios padrões dos universos que vamos investigar).

Tamanhos de amostra requeridos por cada técnica

As técnicas de amostragem estratificada podem ser usadas para estimar de forma mais precisa parâmetros das populações de interesse, sejam médias (por exemplo, a média de cigarros consumidos pelos fumantes do México) ou proporções (por exemplo, a proporção da população do México que fuma). Mas, inversamente, também podem nos permitir reduzir o tamanho da amostra requerido para alcançar uma estimativa com um nível de erro determinado.
A tabela a seguir resume o tamanho da amostra requerido ao empregar cada técnica, com base no erro máximo que estamos dispostos a aceitar (e) e nas características do próprio universo. Nessas fórmulas, consideramos que o universo tem tamanho infinito. Se for finito, deve ser aplicado um fator de correção.

Para interpretar o quadro anterior é necessário ter em conta o seguinte:

  • \( Z \) é o valor crítico de corte de uma distribuição normal para alcançar um nível de confiança desejado. Você pode encontrar mais informações sobre o significado de \( Z \) aqui. Os valores mais frequentes são:
  • Nível de confiança 90% -> \( Z=1.645 \)
  • Nível de confiança 95% -> \( Z=1.96 \)
  • Nível de confiança 99% -> \( Z=2.576 \)
  • \( L \) é o número de estratos em que particionamos a amostra e \( h \) é um índice que se refere a um estrato concreto. Portanto, h pode variar entre 1 e L estratos.
  • \( p \) é a proporção que buscamos no total da população (p.e. % de fumantes). Portanto, \( 1-p \) é a proporção complementar, a que não atende ao critério buscado (% de não fumantes). Da mesma forma, \( p_h \) é essa proporção dentro de cada um dos estratos.
  • \( \sigma^2 \) é a variância do dado buscado (no caso de estimar médias) no total da população. Da mesma forma, \( \sigma_h^2 \) é a variância dentro de cada estrato.
  • \( e \) é a margem de erro aceita.
  • \( W_h \) é o peso que o estrato tem na amostra (tamanho do estrato em relação ao total da amostra). Se falamos de estratificação proporcional, cada \( W_h \) é igual à proporção que esse estrato representa na população. Se falamos de estratificação ótima, cada \( W_h \) é calculado com base na dispersão dentro de cada estrato.

É possível demonstrar a partir das fórmulas anteriores que os diferentes métodos de estratificação só reduzem o tamanho da amostra necessária se os valores de \( p \) e \( \sigma \) variam entre os estratos. Caso contrário, todas as expressões são equivalentes. Vejamos um exemplo: se tomarmos a expressão de tamanho de amostra requerido para estimar uma média por meio de uma amostragem estratificada ótima, temos

$$ n = Z^2 \cdot \frac{\left( \sum_{h=1}^{L} w_h \sigma_h \right)^2}{e^2} $$

Se considerarmos que todas as variâncias dos estratos são iguais (\( \sigma_h=\sigma \)) e que o tamanho dos estratos é idêntico (\( W_h=1/L \)), o resultado que obtemos é

$$ n = Z^2 \cdot \frac{\left( \sum_{h=1}^{L} w_h \sigma_h \right)^2}{e^2} = Z^2 \cdot \frac{\left( \sum_{h=1}^{L} \frac{1}{L} \sigma \right)^2}{e^2} = Z^2 \cdot \frac{\left( \frac{L}{L} \sigma \right)^2}{e^2} = Z^2 \cdot \frac{\sigma^2}{e^2} $$

que coincide com o tamanho de amostra necessário para ter um erro máximo e em uma amostragem aleatória simples.

Conheça Nosso Serviço de Amostragem Ad-hoc

No Netquest, entendemos a importância de obter dados precisos e representativos para suas pesquisas de mercado. É por isso que recomendamos o serviço de amostragem ad-hoc do Netquest, um líder confiável no setor de pesquisa digital. Com sua ampla experiência e uma vasta rede de painéis online, o Netquest oferece soluções sob medida que se adaptam às necessidades específicas do seu projeto.

Para mais informações e para ver como eles podem ajudar você a alcançar seus objetivos de pesquisa, visite sua página de serviços de amostragem ad-hoc.

Conclusões

A amostragem estratificada é uma técnica que nos permite reduzir o erro em nossas estimativas sempre que tivermos certa informação a priori sobre a existência de grupos homogêneos na população. Esperamos que este post tenha ajudado a esclarecer a utilidade deste método. Em próximos posts abordaremos a amostragem sistemática.

ÍNDICE: Série "Amostragem"

  1. Amostragem: O que é e por quê funciona
  2. Amostragem probabilística e não probabilística
  3. Amostragem probabilística: Amostar aleatória simples
  4. Amostragem probabilística: Amostra estratificada
  5. Amostragem probabilística: Amostra sistemática
  6. Amostragem probabilística: Amostra por conglomerados
  7. Amostragem não probabilística: Amostra por conveniência
  8. Amostragem  não probabilística: Amostra por quotas
  9. Amostragem não probabilística: Amostra por bola de neve

Suscríbete a nuestro blog y recibe las últimas novedades aquí o en tu email.