¿Cuánta gente ha sido realmente infectada por el Covid-19? Durante las últimas semanas hemos asistido a un baile de cifras sorprendente. Sorprendente por la simplicidad de la pregunta y la dificultad de obtener una respuesta.
En la era de la información, en el momento de la historia humana en el que tenemos más medios diagnósticos y más fuentes de datos, estamos fracasando en responder esta simple pregunta, pero de capital importancia, como veremos un poco más tarde. Afortunadamente, podemos dar respuesta usando un método de toda la vida: el muestreo.
Los datos oficiales no son realistas
Los diferentes gobiernos han reportado cifras de infectados desde el inicio de la crisis. Sin embargo, pronto se ha puesto de manifiesto que estas cifras estaban claramente sesgadas a la baja, por diferentes razones:
1. Hay pacientes asintomáticos: no tienen síntomas, pero están o han estado infectados. Si no hay síntomas, no se hacen pruebas.
2. La incapacidad de hacer suficientes pruebas diagnósticas. Mientras estados como Alemania han sido capaces de realizar un gran número de tests, otros países como España o Italia no han podido realizar tantas pruebas como habrían deseado. Esto ha llevado a recomendar a pacientes con síntomas que se confinasen en su domicilio en caso de sospecha, sin llegar a saber si han sido infectados.
La principal evidencia de que el número oficial de infectados es incorrecto es la desproporción entre infectados y muertes. Tomando el ejemplo de España, el 20 de abril se reportaron 200.210 infectados y 20.852 fallecidos, un 10,4%. Es sabido que el Covid-19 no tiene una tasa de mortalidad tan elevada, lo que solo puede significar que el número de infectados es muy superior al reportado.
Estimaciones estadísticas
Han sido varias las personas que, usando modelos estadísticos, han tratado de estimar el número real de infectados y alertarnos de la situación que se nos venía encima.
En fechas tan tempranas como el 10 de marzo autores como Tomás Pueyo advertían a los gobernantes de todo el mundo sobre la gravedad de la situación. Simplemente revisando (1) los datos existentes, (2) la experiencia de los países que en aquel momento estaban siendo más afectados (China, Corea del sur, Italia e Irán) y (3) conociendo el crecimiento exponencial que acostumbran a tener los contagios víricos, Pueyo nos dibujaba el panorama desalentador que nos esperaba, especialmente si los gobiernos no tomaban medidas de aislamiento.
Otros autores, como nuestro excompañero de Netquest Carlos Bort, se atrevían a hacer estimaciones, afirmando que el número de infectados reales el 17 de marzo en Madrid (España) podía ser hasta 100 veces el número reportado. Estas estimaciones se realizan modelando los diferentes estados por los que pasan los infectados (contagiado, incubación, enfermo sintomático o asintomático, curado o fallecido…) y el periodo de tiempo medio que transcurre entre cada estado.
Bort, en su artículo, hacía una estimación partiendo del número de infectados oficial y otra partiendo del número de fallecidos. La primera estimación tenía como gran inconveniente la poca fiabilidad del dato oficial, lo que debilitaba el análisis. Por el contrario, la estimación a partir del número de fallecidos partía de un dato mucho más fiable. Lamentablemente, más tarde hemos descubierto que ni tan solo el dato de fallecimientos es fiable, ya que durante muchas semanas no se han computado debidamente los fallecimientos derivados del Covid-19, especialmente en residencias de ancianos.
El Imperial College de Londres, a fecha 31 de marzo, ahondaba en la hipótesis de que el nivel de contagio era muy superior al oficial, cifrando en 7 millones las personas infectadas en España (15% de la población). En ese momento, esos 7 millones representaban 100 veces el número oficial, en la misma línea de lo estimado por Bort.
Todas estas estimaciones son claramente más realistas que el simple dato oficial proporcionado por los gobiernos, pero siguen adoleciendo de un problema fundamental: la falta de datos fiables sobre los que trabajar.
Y el muestreo clásico viene al rescate de nuevo
No deja de resultar paradójico. Llevamos tiempo escuchando que en la era del Big Data la información abunda, está disponible libremente y que, usando los métodos adecuados, es posible hacer cualquier estimación.
Pues no es cierto. Si queremos estimar de forma fiable el número real de infectados por covid-19 necesitamos una muestra representativa de personas. Sí, una muestra, lo mismo que usamos para hacer una encuesta electoral o un test de recuerdo de marca.
Una muestra, si ha sido convenientemente diseñada, permite estimar de forma precisa la incidencia real de una enfermedad en la población, con independencia de factores como la sintomatología o la saturación del sistema hospitalario. El principio es muy básico: seleccionamos personas al azar y hacemos un test para detectar la enfermedad. Las personas se seleccionan sin importar que tengan síntomas o no, en todas las regiones, de todas las edades... y el resultado se extrapola al conjunto de la población.
El Ministerio de Salud de España ya se ha puesto en marcha ordenando un estudio que pretende estimar el porcentaje de población que ha sido infectada, estén o no enfermos ahora mismo, a través de una amplia muestra de 90,000 personas, distribuidas en 2 oleadas. A las personas seleccionadas se les realizará un test rápido de anticuerpos, un test que permite detectar si la persona ha pasado por la enfermedad gracias al rastro que deja en nuestro sistema inmunológico. Dado que los tests rápidos no son muy fiables, aquellas personas que den negativo serán sometidas a un segundo test (el famoso PCR), mucho más fiable.
Solamente los organismos públicos tienen capacidad para hacer este tipo de estudio usando una muestra realmente probabilística, ya que, como hemos explicado en numerosas ocasiones, esto requiere tener un listado de todo el universo a estudiar (en este caso, toda la población española), y los medios reales para acceder a ellos y obligarlos a participar en el estudio.
Algunas consideraciones sobre el muestreo a realizar
Desconozco el método exacto que emplea el organismo público competente para estudiar el alcance del virus, pero seguramente habrán considerado las siguientes opciones:
1. Podrían usar muestreo aleatorio simple. Sería como poner un boleto en una urna por cada habitante y sacar 60,000 boletos al azar. Yo no recomendaría hacer esto por una razón: la afectación del virus es muy desigual por regiones, incluso por poblaciones y hasta por barrios. Es posible aprovechar esta propiedad para hacer un muestreo más eficiente (siguiente punto).
2. Podrían usar muestreo estratificado. Esta técnica divide la población en grupos o estratos, y asegura que la muestra cuenta con un número fijo por cada estrato. En este caso, lo más lógico sería usar estratos geográficos (comunidad autónoma o provincia), pero podrían usarse grupos de edad, clase social o una combinación de estos grupos. El muestreo estratificado reduce el nivel de error. Y en casos como éste, es posible destinar más muestra a regiones que sabemos que están más afectadas, para poder profundizar mejor en las estimaciones.
3. Por último, es posible combinar el muestreo estratificado con el muestreo por conglomerados. En este caso, parece recomendable escoger la familia como unidad de muestreo: ya que debemos desplazar a un equipo médico a recoger muestras en un hogar, mejor obtengamos muestras de todos los miembros del mismo.
Importancia del estudio y alternativas
El estudio aleatorio planteado por las autoridades sanitarias es de capital importancia. Incluso aunque la crisis sanitaria a corto plazo esté bajo control (saturación de hospitales), saber qué porcentaje de la población ha pasado la infección es crítico para determinar qué nivel de inmunidad colectiva disfrutamos. Cuantas más personas hayan sido infectadas, más personas habrán generado inmunidad a la enfermedad, actuando de barreras naturales para detener la propagación del virus, protegiendo a los no infectados. Los epidemiólogos, con esta información y conociendo la forma en que se contagia el virus, pueden determinar a partir de qué momento la población goza de inmunidad colectiva, permitiendo el levantamiento de medidas de confinamiento que afectan a la vida de las personas y a la economía.
No hace falta decir que el estudio planteado por el Ministerio es muy costoso y al alcance únicamente de un organismo oficial. Pero incluso una muestra no estrictamente aleatoria podría ofrecer estimaciones mucho más cercanas a la realidad que las cifras oficiales que actualmente manejamos. Netquest dispone de un panel online con capacidad de encuestar a más de 80,000 personas en España o en Brasil, personas dispuestas a participar en un estudio de este tipo. Una primera fase podría ser simplemente conocer si estas personas han padecido síntomas, aunque no se hayan hecho la prueba. Pero sería perfectamente posible enviar a los participantes un kit para recoger una muestra por sí mismos y enviarla por mensajería (suponiendo que fuese posible enviar las muestras por mensajería sin que eso afectase su posterior análisis, y que la obtención de una muestra pudiese ser autoadministrada).
En muchas ocasiones, la obtención de información rápida con un nivel suficientemente elevado de precisión es preferible a una información perfecta pero tardía, o a la ausencia total de información fiable con la que hemos contado hasta ahora. La toma de decisiones es muy sensible a los retrasos. Sin embargo en España, parece que el estudio vía muestra seguirá sufriendo retrasos por problemas logísticos.