jueves, 2 de abril de 2020

Estimando con precisión el número de infectados de coronavirus

En una charla en Facebook salió el problema de a cuánta gente habría que hacer tests para conocer con precisión el número de infectados en España; concretamente, con un error del 1%.

Claro, un 1% es demasiada precisión, porque en el momento de escribir esto, el número oficial de infectados crece cada día un 10%. Olvidémonos de este detalle.

El resultado es chocante, porque hace falta una cantidad enorme de tests. Antes de entrar en faena, veamos dos casos extremos. Primero, tenemos un pueblo con 50 habitantes y queremos conocer el número de infectados con un error del 1%; bueno, es sencillo, hay que hacerle el tests a todos y cada uno de los vecinos. Segundo, tenemos una enfermedad rara que posiblemente padece una persona de cada millón; en realidad no lo sabemos, porque sólo se ha tratado a pacientes que iban a la consulta porque su caso era grave. Hacerle el test a un millón de personas no sería suficiente; posiblemente pillarías a un enfermo, pero a lo mejor no pillarías a ninguno; obviamente, esto no sería suficiente para estimar el número de enfermos con un error del 1%.

Vamos al grano. Imaginemos que en España hay 50M personas, y que el 0,4% de la población está infectada (el dato oficial era más o menos la mitad en el momento de formularse la pregunta). Hacemos un test a N personas. El resultado tendrá una media 0,004*N y una desviación típica raiz(N*0,004*0,996). Supongamos que usamos una confianza del 95%; esto quiere decir que aceptamos que el resultado puede ir desde -2 desviaciones típicas hasta 2, es decir, desde 0,004*N-2*raiz(N*0,004*0,996) hasta 0,004*N+2*raiz(N*0,004*0,996). Como queremos que este resultado tenga un error del 1%, 2*raiz(N*0,004*0,996) = 0,01*0,004*N. Y uf, eso quiere decir que N = 10.000.000.

¿Uh?

Sí, en serio. Si hago 10 millones de tests, encontraré un número de infectados que tendrá de media 40.000 y de desviación típica 199; de forma que si confío en que caerá entre 39.600 y 40.400 ya me aseguro el error de 1%.

Un ejemplo un poco menos chocante. Si sólo testeo a 10.000 personas, espero encontrarme 40 infectados, pero la desviación típica será 6,3, así que el número que me saldrá estará entre 40-2*6,3=27 y 53. Claro, 53 es casi el doble de 27; con 10.000 tests estoy muy, muy lejos del error de 1% en el número de infectados.

Esto es llamativo entre otras cosas porque estamos acostumbrados a que los sondeos electorales con 3.000 personas nos den un error del orden del 1%. Pero es que ahí los porcentajes buscados no son pequeños, los partidos minoritarios ni aparecen. Imaginemos que la mitad de la población estuviese infectada; si tomo 3.000 muestras me saldrá un resultado con media 1.500 y desviación típica raiz(3000*0,5*0,5)=27, así que con confianza 95% el resultado estaría entre 1446 y 1554, y tendría un error menor que 3.6%. Nada que ver.

Una pregunta interesante: imaginemos que hacemos 10.000 tests, pero en vez de escoger a 10.000 españoles al azar, usamos algún tipo de criterio geográfico. ¿Podríamos tener una estimación más precisa? La respuesta es que sí, pero quizás no mucho. Me invento un ejemplo.

Seguimos suponiendo que hay 50M españoles y el % = 0,4% están enfermos. Pero ahora España está dividida en dos "sitios"; el Norte tiene 30M habitantes y %n = 0,6% infectados, y el Sur tiene 20M habitantes y %s = 0,1% infectados (esta diferencia de porcentajes es exagerada). Nosotros no conocemos %, %n y %s, pero obviamente 50 * % = 30 * %n + 20 * %s. En vez de tomar una muestra de m = 10.000 españoles, tomaremos dos muestras de mn norteños y ms sureños, donde nosotros podemos escoger mn y ms con la retricción de que mn+ms = m = 10.000.

Al analizar las muestras nos encontraremos con in y is infectados.

La media de in es %n * mn y su varianza es mn * %n * (1-%n)

La media de is es %s * ms y su varianza es ms * %s * (1-%s)

Así que estimaremos el número total de infectados en el norte como (30M/mn) * in; esto tiene media 30M * %n y varianza mn * %n * (1-%n) * (30M/mn)^2.

Cuando sumamos las estimaciones del norte y del sur, nos sale la media correcta (aquí no hay sorpresa) y varianza

%n * (1-%n) * 30M^2 / mn + %s * (1-%s) * 20M^2 / ms

comparado con la encuesta inicial de una sola muestra para toda España, que tiene una varianza de

% * (1-%) * 50M^2 / m = 996M

Vale, ¿cuál es la mejor forma de escoger mn y ms? Pues resulta que la varianza se minimiza para mn = 7856 y ms = 2144, si lo hacemos así la varianza sale 870M. Claro, esto es un poco hacer trampa, porque para precisar tanto hay que conocer %n y %s. Lo que pasa es que tampoco es algo tan descabellado; si sospechamos que hay más enfermos en el norte que en el sur, parece lógico afinar el muestreo en el norte; si no tuviésemos ninguna preferencia, repartiríamos la muestra 6000/4000 para norte/sur por tener poblaciones 30M/20M; si en vez de 7856/2144 hubiésemos usado 8500/1500, la varianza nos saldría 898M, que tampoco es tan diferente. Si se nos fuese la olla y usásemos 9750/250, la varianza se dispararía y subiría hasta 2149M; pero vaya, cualquier matemático que pasase por ahí nos avisaria de que eso es un disparate.

A lo que vamos: si usamos una sola muestra, nuestra estimación tendría una media 50M * 0,004 = 200.000 infectados con una desviación típica = raiz(varianza) = 31.559 , mientras que si usamos dos muestras, lo menos que podemos conseguir es una desviación típica de raiz(870M) = 29.496. La mejora es como mucho un 7%, y corremos el riesgo de meter la pata y hacerlo mal.

Esto parece muy poco, posiblemente porque, de nuevo, comparamos con las encuestas electorales, que sabemos que consiguen mejoras mucho mayores.

Pero claro, para exprimir la información de una encuesta electoral, se usa un montón de información. Se tienen los resultados de elecciones anteriores, y si decides que vas a usar tal sitio paa hacer la encuesta, te puedes informar de si ahí ha cambiado el censo, si se ha construido una fábrica que atraerá obreros, o urbanizaciones con campos de golf, puedes obtener un montón de datos como estadísticas sobre la declaración de la renta, etc.

Con el coronavirus no tenemos esa información, así que no sabemos cómo sacarle tanto jugo a una muestra.

Si lo que nos interesase no fuese estimar el número de infectados sino el número de muertes, podríamos poner en nuestra encuesta más personas mayores y hombres, que mueren más de covid19 que las mujeres. Esto lo podríamos hacer de dos formas: o bien encuestamos más a hombre y a mayores en vez de escoger gente al azar (aplicable al problema de toda España o por zonas); o bien escogemos aquellos sitios donde haya más hombre o más mayores, y después seleccionamos al azar dentro de esos sitios escogidos (sólo para el problema por zonas).