Cada vez que miro las estadísticas de este modesto blog, siempre observo la misma pauta: el tráfico de visitas cumple de forma precisa el principio de Pareto: el 20% de los posts generan el 80% de las visitas. Y entre este 20% de posts más visitados destacan con mucha diferencia los posts dedicados a cómo calcular el tamaño de una muestra representativa para hacer un estudio de opinión.
Viendo el gran interés que despierta esta cuestión, por esto nos dedicaremos a explicar que es el muestreo, cuáles son las principales técnicas de muestreo y cuando conviene usar una técnica u otra. Esperamos que estos contenidos sean de utilidad, ya sea a estudiantes de investigación, personas con curiosidad en estos temas o profesionales que tengan estos conceptos un poco oxidados.
¿Qué es el muestreo?
El muestreo es el proceso de seleccionar un conjunto de individuos de una población con el fin de estudiarlos y poder caracterizar el total de la población.
La idea es bastante simple. Imagina que queremos saber algo de un universo o población, por ejemplo, qué porcentaje de los habitantes de México fuma habitualmente. Una forma de obtener este dato sería contactar con todos los habitantes de México (122 millones de personas) y preguntarles si fuman. La otra forma sería seleccionar un subconjunto de individuos (por ejemplo, 1.000 personas), preguntarles si fuman y usar esta información como una aproximación de la información buscada. Pues bien, este grupo de 1.000 personas que me permiten conocer mejor cómo se comportan el total de mexicanos es una muestra, y la forma en que los seleccionamos es la técnica de muestreo.
En la definición anterior hemos introducido dos términos fundamentales a lo largo de esta serie de posts:
1) Universo o población: Es el total de individuos que deseo estudiar o caracterizar. En el ejemplo anterior, el universo lo forman los habitantes de México, pero podemos pensar en todo tipo de universos, más generales o más concretos. Por ejemplo, si quiero saber cuánto fuman de media los fumadores de México, el universo en este caso serían "los fumadores de México".
2) Muestra: Es el conjunto de individuos del universo que selecciono para estudiarlos, por ejemplo a través de una encuesta.
Te puede interesar: ¿Qué es una encuesta por muestreo? Usos en investigación, ¿Qué es una encuesta?
¿Por qué funciona el muestreo?
Saber que es un muestreo e introducirlo en las investigaciones es útil gracias a que podemos acompañarlo de un proceso inverso, que llamamos generalización de resultados. Es decir, para conocer un universo lo que hacemos es:
1) Extraer una muestra del mismo.
2) Medir un dato u opinión.
3) Proyectar en el universo el resultado observado en la muestra.
La generalización de resultados añade cierto error al dato que medimos. Imagina que tomamos una muestra al azar de 1.000 personas de México y les preguntamos si fuman. Obtengo que el 25% de la muestra fuma. La simple lógica nos dice que si de 1.000 mexicanos elegidos al azar el 25% fuma, este dato debería ser indicativo de lo que obtendríamos si preguntásemos a los 122 millones de mexicanos. Ahora bien, el azar podría haber hecho que haya escogido para mi muestra más fumadores de lo que correspondería a la proporción exacta que hay en el universo o, por el contrario, que en mi muestra los fumadores estén algo infrarepresentados. El azar podría hacer que el porcentaje de fumadores en la población fuese algo diferente del 25% que hemos observado en la muestra (tal vez un 25,2%, por ejemplo). Por lo tanto, la generalización de resultados de un muestra a un universo conlleva aceptar que cometemos cierto error, tal y como ilustra el siguiente esquema.
Afortunadamente, el error cometido al generalizar resultados puede acotarse gracias a la estadística. Para ello suelen usarse dos parámetros: el margen de error, que es la máxima diferencia que esperamos que haya entre el dato observado en mi muestra y el dato real en el universo, y el nivel de confianza, que es el nivel de certeza que tenemos de que el dato real esté dentro del margen de error.
Por ejemplo, en nuestro caso de fumadores mexicanos, si selecciono una muestra de 471 individuos y les pregunto si fuman, el resultado que obtenga tendrá un margen de error máximo de ±5% con un nivel de confianza del 97%. Esta forma de expresar los resultados es la correcta cuando usamos muestreo.
El tamaño de la muestra
¿Qué tamaño de muestra necesito usar para estudiar cierto universo? Depende del tamaño del universo y del nivel de error que esté dispuesto a aceptar, Cuanta más precisión exija, mayor muestra necesito. Si quiero tener una certeza absoluta en mi resultado, hasta el último decimal, mi muestra tendrá que ser tan grande como mi universo.
Pero el tamaño de la muestra tiene una propiedad fundamental que explica porqué el muestreo se usa tanto en tantos ámbitos del conocimiento. Esta propiedad podría resumirse como sigue: a medida que estudio universos mayores, el tamaño de muestra que necesito cada vez representa un porcentaje menor de dicho universo.
Este fenómeno lo explican de forma muy didáctica en Gaussianos.com, un interesante blog dedicado a las matemáticas. Supongamos que queremos hacer una encuesta para conocer un porcentaje (podría ser el de gente que fuma) con un nivel de error determinado, por ejemplo, un margen de error del 5% y una confianza del 95%. Si el universo a estudiar fuese de tan sólo 100 personas, mi muestra tendría que ser de 79,5 individuos (es decir, 79,5% del universo, lo que representa un parte muy importante del total del universo). Si el universo fuese de 1.000 personas, mi muestra debería ser de 277,7 personas (27,7% del universo). Y si mi universo fuese de 100.000 personas, la muestra necesaria sería de 382,7 personas (3,83% del universo).
Por lo tanto, a medida que trabajo con universos más grandes, la muestra que necesito debe ir creciendo pero de forma no proporcional, tiende a estancarse y cada vez representa un porcentaje más pequeño del universo. A partir de cierto tamaño de universo (en torno a 100.000 individuos), el tamaño de la muestra ya no necesita crecer más. La siguiente tabla nos muestra algunos ejemplos:
Tamaño de muestra necesaria para tener un error del 5% con un nivel de confianza del 95%
Universo | Muestra necesaria |
% |
10 | 10 | 100% |
100 | 80 | 80% |
1.000 | 278 | 27,8% |
10.000 | 370 | 3,7% |
100.000 | 383 | 0,38% |
1.000.000 | 384 | 0,038% |
10.000.000 | 385 | 0,004% |
100.000.000 | 385 | 0,0004% |
Los datos anteriores nos dicen que por grande que sea el universo, con 385 personas puedo estudiar cualquier dato con el mismo nivel de error (margen de 5%, confianza de 95%). Por esta razón el muestreo es tan poderoso: nos permite hacer afirmaciones altamente precisas de una gran cantidad de individuos a través de un parte muy pequeña de los mismo.
Como contrapartida, el ejemplo anterior ilustra que el muestreo no funciona bien en universos pequeños. Si tengo una clase de 10 alumnos, la opinión de cada uno de ellos es fundamental para conocer la opinión global, no puedo prescindir de ninguno. Si no quiero superar el error que nos hemos propuesto, en un universo de 10 individuos necesito encuestar a todos ellos.
Ventajas e inconvenientes del muestreo
Resumimos a continuación las principales ventajas e inconvenientes que al conocer que es muestreo en estadística y utilizarlo, podrías hacer frente al estudiar todo un universo.
✔Ventajas |
✘Inconvenientes |
- Necesitamos estudiar menos individuos, necesitamos menos recursos (tiempo y dinero). - La manipulación de datos es mucho más simple. Si con una muestra de 1.000 personas tengo suficiente, ¿para qué quiero analizar un fichero de millones de registros? |
- Introducimos error (controlado) en el resultado, debido a la propia naturaleza del muestreo y a la necesidad de generalizar resultados. - Tenemos el riesgo de introducir sesgos debido a una mala selección de la muestra. Por ejemplo, si la forma en que seleccionamos individuos para la muestra no es aleatoria, los resultados pueden verse seriamente afectados. |
Eleva la Precisión de Tu Muestreo con Nuestras Soluciones Ad-hoc
En el mundo del muestreo, la precisión y la relevancia de los datos recogidos son fundamentales para el éxito de cualquier proyecto de investigación. Comprendiendo este principio, en Netquest ofrecemos un servicio especializado de Muestras Ad-hoc que se ajusta a la perfección a tus necesidades específicas de investigación, garantizando la máxima calidad y fiabilidad de los datos.
¿Por qué integrar Muestras Ad-hoc en tu estrategia de muestreo?
- Personalización al Detalle: Nuestro servicio se centra en entender y adaptarse a las necesidades únicas de tu proyecto, permitiéndote alcanzar tus objetivos con mayor eficacia.
- Soporte Experto: Aprovecha nuestra amplia experiencia y conocimientos en muestreo para superar cualquier desafío metodológico, desde la selección hasta la implementación de la muestra.
- Resultados Confiables: Con acceso a una amplia comunidad de respondientes comprometidos, aseguramos la representatividad y la autenticidad de tu muestra, elevando la validez de tus resultados.
Al comprender el qué es el muestreo, es igualmente importante saber cómo aplicar estas técnicas de manera efectiva. Nuestro servicio de Muestras Ad-hoc es la herramienta que necesitas para transformar los principios teóricos en resultados prácticos y significativos.
La muestra aleatoria simple: definición y alternativas
La técnica más simple de muestreo, a partir de la cual se desarrollan en resto de técnicas, es el muestreo aleatorio simple. Una muestra aleatoria simple es aquella en la que se seleccionan individuos del universo de forma totalmente aleatoria. Esto implica que todos los individuos deben tener idéntica probabilidad (no nula) de ser seleccionados para la muestra.
Pero una cosa es la teoría y otra la práctica. Sólo en entornos muy controlados es posible hacer muestras aleatorias. Por otra parte, cuando tenemos universos compuestos por grupos homogéneos (entre sí) de personas, podemos aprovechar esta agrupación para mejorar la precisión de la muestra (o reducir el tamaño de la misma).
En los próximos posts abordaremos qué tipos de muestreo existen, empezando por las dos grandes familias de técnicas: el muestreo probabilístico y el no probabilístico. ¡Os esperamos!
ÍNDICE: Serie Muestreo