No, los números de casos de 2019-nCoV no se fabricaron para ajustarse a una curva: The Prepared

A nueva teoría de la conspiración ha estado dando vueltas en Internet, incluida la página principal de Reddit: que un ajuste «extraño» entre los números de casos y una curva cuadrática prueba que los números de casos 2019-nCoV están siendo fabricados por completo por el gobierno chino, con la aquiescencia de la OMS.

De hecho, el ajuste no es extraño en absoluto: se espera un buen ajuste para este tipo de datos, y si el gobierno chino intentara hacer una curva falsa, no usaría una cuadrática. Entonces, esta teoría en particular simplemente no vale la pena tomarla en serio.

Un nuevo usuario de reddit hace una publicación sospechosamente viral

El miércoles, un nueva cuenta de Reddit llamado Antimonic publicó un gráfico en el subreddit r/dataisbeautiful titulado «El modelo de crecimiento epidémico de coronavirus cuadrático parece ser el que mejor se ajusta», que desde entonces ha acumulado miles de votos a favor.

La publicación muestra una curva cuadrática ajustada a los recuentos totales de casos acumulados de los primeros 15 días de los Informes de situación de la OMS, con un llamativo valor R-cuadrado de .9995. Llamando a los datos «propaganda» derivada de un «modelo cuadrático», Antimonic acusó al gobierno chino de fabricar sus datos a partir de telas enteras y predijo los números de casos y muertes para la próxima semana. La publicación ha estado explotando desde entonces.

No es una pistola humeante

Lo primero que vale la pena señalar es que una cuadrática en realidad no es la forma esperada de los recuentos de casos en una epidemia. No existe un modelo epidemiológico que proyecte una conformidad perfecta con un cuadrático; los modelos reales siguen en gran medida funciones exponenciales y logísticas. Por lo tanto, fabricar números de casos para que se ajusten a una cuadrática perfecta parecería muy sospechoso y tampoco simularía lo que cualquiera esperaría.

Pero también, tomamos los mismos datos (más los días adicionales de datos desde el miércoles) y los graficamos de la misma manera, y los datos están lejos de ser una cuadrática perfecta. Esto es particularmente claro cuando considera los nuevos números de casos diarios, que para un cuadrático seguirían una tendencia lineal perfecta. ellos no

El valor R-cuadrado del ajuste para este segmento de datos es solo 0,88 y las divergencias son grandes y claramente visibles. La divergencia de la linealidad se vuelve particularmente pronunciada en los días posteriores a la publicación original de Antimonic.

No los numeros de casos de 2019 nCoV no se fabricaron

La cuadrática también encaja bastante bien, pero si ajustas diferentes cuadráticas a diferentes subconjuntos de datos, son notablemente diferentes. Por ejemplo, agregar cinco días más de datos a la publicación original, como hicimos nosotros, cambia los coeficientes de forma cuadrática de «mejor ajuste» de (123, 545, 905) a (116, 413, 511), y aumenta la divergencia en R- al cuadrado (en relación con un ajuste perfecto) por más de tres veces.

Si observa los datos de fuera de China, que definitivamente no están siendo falsificados por China, y ajusta una cuadrática a los números de casos acumulativos, obtendrá un valor R-cuadrado igualmente llamativo de .992.

También hay que considerar que los datos no son un solo número cada día, sino que vienen subdivididos por provincia y con datos complementarios de casos críticos, casos recuperados y muertes. Si observa esos datos con mayor profundidad, como lo hemos estado haciendo en nuestros informes estadísticos sobre el progreso de la epidemia, y como lo han estado haciendo los verdaderos expertos con mayor profundidad, verá todo tipo de peculiaridades que socavan la noción de que los datos están siendo falsificados con un modelo ordenado.

Finalmente, si los datos fueran obviamente fabricados, la OMS no los estaría proponiendo. Puede cuestionar su supuesta demora en declarar una emergencia de salud pública de importancia internacional, o no estar de acuerdo con sus evaluaciones de dónde está el brote ahora y hacia dónde se dirige a continuación, pero la OMS no es estúpida, ni está involucrada en una conspiración para dañar el mundo. salud. Estar bien informado y ayudar a la salud mundial es todo lo que tienen.

Contabilizar el ajuste es fácil

Entonces, ¿por qué los datos reales desordenados se ajustan tan bien a una cuadrática? Tiene que ver con la naturaleza de las regresiones y la forma en que se calcula un valor R-cuadrado.

Las regresiones extraen del universo de posibles ecuaciones de cierta forma cerrada, en este caso cuadrática. La forma cuadrática cerrada tiene tres grados de libertad, los coeficientes de los términos constante, x y x^2, es decir, la intersección en y, la pendiente inicial y la tasa de aumento de la pendiente. O, si completas el cuadrado, los tres grados de libertad son la pendiente y las coordenadas x e y del vértice.

La regresión, entonces, optimiza estos parámetros para ajustar los datos lo más cerca posible, y tiene muchos «botones» para presionar para que encaje bastante bien, especialmente cuando no hay muchos datos para ajustar. De hecho, cualquier dato con n puntos se puede ajustar perfectamente, sin ningún error, utilizando un polinomio de grado n-1.

Además, el software estadístico moderno puede ajustar muchos tipos de modelos a los mismos datos y, como reconoce nuestro amigo Redditor, probó muchos modelos antes de elegir el que tenía el valor R cuadrado más llamativo.

Y la curva de una epidemia en crecimiento tiene algunas propiedades que inherentemente pueden hacerla similar a una cuadrática. Será monótonamente ascendente y crecerá a un ritmo creciente. Esto significa que el trabajo del cálculo de regresión se hace más fácil gracias a esta cruda similitud y permite esos llamativos números R-cuadrado. El valor de R-cuadrado se calcula utilizando el cuadrado de las diferencias entre el modelo y la realidad, por lo que castiga con más dureza algunas desviaciones grandes que muchas pequeñas. Es decir, la información conjunta de que las dos curvas son altas es realmente solo la observación de que, en general, las curvas se ven bastante similares, no un juicio definitivo de que la curva fue falsificada usando un modelo.

Para ilustrar esto, tomemos un ejemplo puramente sintético. Generamos dos curvas, una exponencial y otra cuadrática, que comienzan en 100 el día 1 y terminan en 1440 más o menos el día 29. Luego ajustamos una cuadrática a la exponencial y viceversa. Estos datos son realmente sintéticos y perfectos, y estamos ajustando el modelo equivocado a cada uno. Pero en ambos casos, el ajuste es cercano y el valor de R-cuadrado es .97 cuando ajustamos la exponencial a la cuadrática, y .994 cuando ajustamos la cuadrática a la exponencial.

1648955513 347 No los numeros de casos de 2019 nCoV no se fabricaron

Puede ver que ambos modelos ajustados comienzan a fallar al final, ya que los datos exponenciales crecen más rápido de lo que permite el modelo cuadrático, y viceversa.

Está bien, pero ¿por qué el valor R cuadrado de nuestro nuevo amigo de Reddit estaba diez veces más cerca de la unidad que nuestro ejemplo sintético? Hay dos razones. Primero, usó solo la mitad de los datos, lo que facilitó el trabajo del modelo. En segundo lugar, a diferencia de una epidemia platónica en un modelo, los datos de casos de 2019-nCoV no son exponenciales precisos, pero han tenido una tasa de crecimiento que se ralentiza con el tiempo, por lo que (por casualidad) se ajusta aún mejor a una cuadrática.

A medida que se acumulan más datos, podemos esperar ver que los datos diverjan más de la cuadrática.

No decimos que los datos sean confiables, solo que no son falsos

Todos los expertos coinciden en que aunque todas las autoridades del mundo fueran lo más competentes que podrían ser y estuvieran informando todo lo que saben con total franqueza, los datos seguirían sin ser exactos, porque muchos casos están latentes sin síntomas, e incluso entre los casos sintomáticos, la mayoría no son conocidos por las autoridades de salud pública.

Sin embargo, por supuesto, ninguna autoridad de salud pública es lo más competente posible, algunas están teniendo fallas decepcionantes y no está claro si todos los actores en todo el mundo están siendo completamente honestos (¡probablemente no!).

Hemos hablado sobre las debilidades de los datos repetidamente y lo seguiremos haciendo en el futuro. Esas debilidades son importantes. Pero estar fabricado completamente con un modelo numérico simple no es uno de ellos.

Deja un comentario