Pandemia COVID-19: la visualización y el análisis de los datos con Power BI

Albert Camus escribió en su novela la peste: “El mal que existe en el mundo proviene casi siempre de la ignorancia, y la buena voluntad sin clarividencia puede ocasionar tantos desastres como la maldad.” Vivimos unos tiempos extraños donde el mal del mundo se ha manifestado en forma de pandemia global y la ignorancia de las élites gobernantes de muchos países no ha hecho más que agravar los efectos de la enfermedad. El año 2020 será largamente recordado como el año en que la economía mundial se paralizó a causa de la propagación del coronavirus COVID-19 en grande parte del mundo.

España ha sido uno los primeros países occidentales en recibir el fuerte impacto de una propagación descontrolada del nuevo virus letal procedente de China. Como consecuencia, el 14 de marzo se decretó el estado de alarma con el cuál se limitó el derecho de libre circulación de los españoles y se fue paralizando toda la actividad económica no esencial. Estas medidas buscaban aplicar un distanciamiento social general que frenase la velocidad de los contagios, redujese los casos graves y, por lo tanto, disminuyese la carga de los hospitales.

Recluidos en nuestras casas, millones de ciudadanos de todo el mundo somos testigos de cómo los medios de comunicación abren a diario su parte informativo con la misma noticia: el recuento de contagiados, curados y fallecidos del coronavirus. Pero ¿por qué son tan importantes estos datos y su evolución? Porque, por un lado, nos dicen el estado de la pandemia a nivel global y nacional y, por otro, su evolución nos sirve para comprobar si las medidas adoptadas por los gobiernos surten efecto y para prever cuando se podrá volver a la normalidad.

Además, aparte de lo anteriormente señalado, los datos de la pandemia nos pueden proporcionar información muy valiosa si los comparamos entre si y los relacionamos con otros factores ya que nos pueden ayudar a explicar su evolución. Con la información que resulta del análisis de los datos se llegan a conclusiones. Los ciudadanos podemos acceder a algunos de los análisis y conclusiones que elaboran medios de comunicación estos días. No obstante, un inconveniente de acudir a los medios es que estos suelen tener una cierta orientación política determinada y su visión puede estar condicionada a esta orientación. Afortunadamente existe una alternativa a la información de los medios de comunicación. Esta consiste en llevar a cabo nuestro propio análisis de los datos para llegar así a nuestras propias conclusiones. Por primera vez en la historia de las pandemias la población puede acceder a los datos epidemiológicos, visualizar su estado y evolución y analizarlos desde sus ordenadores. Esto es posible porque:

  • Disponemos de los medios: acceso a internet y equipos informáticos.
  • Disponemos de datos abiertos: la Universidad Johns Hopkins actualiza todos los días unos archivos con los datos mundiales recopilados y el Ministerio de Sanidad Español hace lo propio con los datos de las comunidades autónomas.
  • Disponemos de herramientas de análisis y visualización: Tableau, Qlik Sense o, el que ya hemos visto en este blog, Microsoft Power BI.

En este post veremos algunos recursos en Internet que enseñan cómo crear nuestro propio informe de Power BI para visualizar y analizar los datos del coronavirus. También, como ejemplo, llevaremos a cabo un análisis de los datos de la pandemia en España, partiendo de unas hipótesis, para llegar a nuestras propias conclusiones.

Cómo crear tu propio informe de seguimiento del coronavirus en el mundo

El programa de Business Intelligence de Microsoft Power BI  (PBI) ha ido ganando popularidad en los últimos tiempos gracias a su gratuidad, la facilidad de su uso y sus continuas actualizaciones. Esto ha hecho crecer la comunidad de usuarios que están activos en la red poniendo en común dudas y compartiendo sus propios informes con otros usuarios.  Es por ello que en internet podemos hallar muchas guías para diseñar tu propio informe PBI a partir de los datos abiertos de coronavirus. Seguidamente se enumeran 5 ejemplos que pueden ser de utilidad para quién quisiese ponerse manos a la obra:

  1. Data Chant: Guía tutorial para crear un modelo de datos. En esta página web podemos ver los pasos para obtener los datos, transformarlos en Power BI y dejarlos preparados para que su actualicen automáticamente. Además se nos aporta un ejemplo de informe elaborado a partir del modelo de datos resultante.
  2. Blog de Jamey Johnston: Guía tutorial para crear un informe de PBI paso a paso. En este post Jamey Johnston nos indica paso a paso como ha creado él un informe de PBI para visualizar y analizar los datos mundiales del coronavirus.
  3. Videotutoral de Curbal: recreando un gráfico del Financial Times. En este videotutorial nos explican cómo replicar con Power BI un interesante gráfico de evolución de los casos de cada país desde que se detectaron los 100 primeros casos.
  4. Videotutorial en español de A2 Capacitación Excel. En este video podemos ver como replicar con un dashboard en Power BI la información que facilita la propia fuente de los datos, la Universidad Johns Hopkins.
  5. Vandalytic: análisis del Coronavirus con Power BI. En este post podemos ver un ejemplo de análisis en español de los datos de la pandemia junto a otras variables externas como: la población de cada país y los índices bursátiles.

Análisis de los datos del coronavirus en España con Power BI

Nuestro punto de partida

Una vez visto en la red lo que se puede hacer con Power BI, uno no puede dejar de intentar hacer su propio informe. Para ello debemos de plantearnos la pregunta de ¿para qué queremos elaborar un informe de PBI? Pues para comprobar la validez de una serie de afirmaciones que se suelen escuchar últimamente en los medios de comunicación con respecto a la evolución de la pandemia en España. Es este caso estas afirmaciones (o hipótesis) son las siguientes:

  1. La propagación del virus es más rápida en las comunidades autónomas con una densidad poblacional (habitante/km2) más elevada.
  2. Las mayores tasas de mortalidad se producen en las comunidades con un gasto público sanitario por habitante más bajo y envejecimiento de la población más elevado.
  3. Los países con gasto público sanitario y envejecimiento de la población similar tienen las mismas tasas de mortalidad españolas.

Las fuentes de datos

El primer paso será el de ir a recopilar los datos a fuentes fiables de información. Para contrastar nuestras hipótesis debemos pensar cuales son los datos que nos pueden ser de mayor utilidad. En nuestro ejemplo han sido los siguientes:

  • Número de casos registrados, fallecidos y recuperados en España. Para poder obtener estos datos que nos permitirán seguir el estado y la evolución de la pandemia en nuestro país hemos acudido a la web del Ministerio de Sanidad.
  • Número de casos registrados y fallecidos en el mundo. Para comparar los datos de España con otros países hemos acudido al fichero abierto proporcionado por la Universidad Johns Hopkins que se encuentra en Github.
  • Datos de población y edad de España y otros países. Para conocer los datos demográficos hemos acudido a la Wikipedia.
  • Gasto sanitario público de España y otros países. Para conocer estos datos hemos tenido que ir por un lado, en el caso de España, a datosmacro.com y, en el caso del resto del mundo, a la base de datos de la OCDE.

El estado y la evolución del coronavirus en España

Antes de ponernos a tratar cada hipótesis vale la pena hacer una idea del estado y la evolución de la pandemia en España por Comunidades Autónomas. Es importante diferenciar la evolución de estos datos por comunidad autónoma porque en España la competencia en sanidad está descentralizada y, por tanto, su gestión es responsabilidad de cada gobierno autonómico de turno.

imagen1

En la imagen superior podemos ver el dashboard que se ha diseñado teniendo en cuenta los datos del Ministerio de Sanidad. Para observar el estado, la distribución geográfica y la evolución se han utilizado 3 tipos de visualizaciones:

  1. Estado del número de casos, fallecidos y recuperados. Hemos utilizado una tabla con los datos para cada comunidad autónoma y hemos calculado los siguientes indicadores relativos: tasa de infectados (total de casos/población total), tasa de mortalidad (total de fallecidos/total de casos) y la tasa de recuperación (total de recuperados/total de casos).
  2. Distribución geográfica de los casos y de los fallecidos. Hemos utilizado un mapa de España para localizar los casos de contagio (a mayor tamaño del círculo, mayor número de casos) y de fallecidos (cuanto más oscuro sea el círculo, mayor el número de fallecidos).
  3. Evolución de los infectados por comunidad autónoma. Siguiendo el ejemplo del videotutorial de Curbal hemos creado un gráfico de líneas, a escala logarítmica, que nos dice el crecimiento de contagiados en cada comunidad a partir de los 100 primeros casos.

La propagación de la enfermedad según la densidad de la población

Para contrastar nuestra primera hipótesis hemos creído conveniente diseñar un gráfico de dispersión que nos muestre si existe una correlación clara entre la densidad poblacional de cada comunidad autónoma y su tasa de infectados.

Imagen2

Para ello, en el eje de las Y ponemos la densidad de habitante por km2 y, en el eje de las X, situamos la tasa de infectados. Cada punto que se ve en el gráfico representa una comunidad autónoma (con la excepción de Ceuta y Melilla al ser éstas valores extremos). En teoría, si la primera hipótesis fuese válida, a mayor densidad (cuanto más arriba) mayor será la tasa de infectado (más a la derecha). Observando los puntos en el gráfico podemos decir que esto no se cumple y, por lo tanto, llegamos a la conclusión de que no existe una correlación entre ambas variables ya que hay comunidades de densidad baja (como La Rioja y Castilla La Mancha) cuyas tasas de infectados son superiores a las de otras comunidades de densidad mayor (como Cataluña o País Vasco). Por lo tanto, podemos decir que la velocidad de la propagación no se explica con la densidad poblacional si no que deben existir otros factores (proximidad con el foco inicial o situación insular) que explicarían mejor la propagación, o no, de la enfermedad.

El porqué de las diferencia entre tasas de mortalidad por comunidades

Para contrastar nuestra segunda hipótesis volvemos a recurrir a un gráfico de dispersión. En esta ocasión debemos tener en cuenta, a parte de la tasa de mortalidad, las variables de promedio de edad y gasto sanitario per cápita. Relacionamos las tres variables para ver si las dos últimas son determinantes para las dimensiones de la primera.

Imagen3

Para ello, en el eje de las Y ponemos el promedio de edad y, en el eje de las X, situamos el presupuesto sanitario per cápita del 2019. Cada círculo que se ve en el gráfico representa una comunidad autónoma y el tamaño de este círculo nos indica el tamaño de la tasa de mortalidad de esa comunidad. Si la segunda hipótesis es válida cuanto más arriba y a la izquierda esté el círculo mayor será su tamaño. Pues bien, observando los círculos en el gráfico podemos decir que se cumple parcialmente. Parece ser que las comunidades más envejecidas (Castilla y León o Asturias) suelen sufrir una mortalidad ligeramente más alta que las comunidades más jóvenes (Murcia o Islas Baleares). Por otro lado, las comunidades con el presupuesto en sanidad per cápita más bajo (Cataluña o Madrid) presentan una mortalidad más elevada que las comunidades con mayor presupuesto per cápita (País Vasco o Navarra). Por lo tanto, podemos decir que la media de edad de la población y el gasto en sanidad sí que influye en la mortalidad de cada comunidad autónoma.

Las tasas de mortalidad comparadas con otros países similares

Para contrastar nuestra tercera hipótesis debemos introducir unos círculos nuevos en el último gráfico de dispersión que hemos visto para comparar la mortalidad de las comunidades autónomas con la de países con unas características similares. Pero ¿Qué países son similares? Aquellos cuyo promedio de edad (entre 41 y 46 años) y gasto público sanitario per cápita (entre 1.100 y 2.000€) son similares a los de las comunidades autónomas españolas. Acudiendo a la base de datos de los países de la OCDE nos da como resultado los siguientes 5 países.

Imagen4

Cabe decir que 2 de ellos (Italia y Corea del Sur) han sido duramente golpeados por la pandemia y, por tanto, su incorporación a nuestro análisis es de gran valor.

Si incorporamos estos 5 países “similares” al gráfico de dispersión de las comunidades autónomas podremos sacar conclusión al compararlos todos.

Imagen5

Si la tercera hipótesis fuese válida (los países similares tendrán mortalidades similares) los círculos de los países similares (en azul) deberían ser de tamaño similar al tamaño de los círculos de las comunidades autónomas (en rojo) que tienen más cerca. Observando el gráfico quede en evidencia que esto no es así. Si analizamos país por país vemos lo siguiente:

  • La República Checa que tiene una media de edad y gasto sanitario cápita similar a Cataluña tiene una tasa de mortalidad 3,1 veces más baja.
  • Portugal que tiene una media de edad y gasto sanitario per cápita similar a la Comunidad de Madrid tiene una tasa de mortalidad 3,1 veces más baja.
  • Corea del Sur que tiene una media de edad y gasto sanitario per cápita similar a Andalucía tiene una tasa de mortalidad 4,5 veces más baja.
  • Eslovenia que tiene una media de edad y gasto sanitario per cápita similar a La Rioja tiene una tasa de mortalidad 1,3 veces más baja.
  • Italia que tiene una media de edad y gasto sanitario per cápita similar al País Vasco tiene una tasa de mortalidad 1,3 veces más alta.

Conclusiones

En este post hemos visto cómo se puede llevar a cabo un análisis de los datos del coronavirus en relación con otras variables para valorar si algunas afirmaciones sobre la pandemia tienen fundamento. A primera vista las afirmaciones que se plantearon parecen bastante lógicas y cuesta no tenerla en cuenta para explicarse el porqué de la evolución de la pandemia. No obstante, hasta que no hacemos un careo de estas hipótesis con los datos no podemos darles un valor de credibilidad. En este sentido y a la vista de nuestro análisis podemos decir lo siguiente:

  • La propagación del virus no se explica simplemente con la densidad población de las comunidades autónomas respectivas. Por tanto, esta variable no nos serviría como explicación y debemos pensar en otras como la cercanía de la comunidad autónoma al principal foco de infectados (Madrid) o la característica insular de ciertas comunidades (Canarias y Baleares).
  • Las comunidades con mayor media de edad y menor gasto en sanidad per cápita están expuestas a sufrir una mayor tasa de mortalidad de sus infectados. Por tanto, los esfuerzos en salud pública deberían ir enfocados a bajar la mortalidad de estas comunidades.
  • No es cierto que otros países con la misma demografía y financiación sanitaria sufran similares tasas de mortalidad que las españolas. Los datos parecen indicar que el efecto del COVID-19 no se debe principalmente a la financiación de la sanidad o al envejecimiento de la población. Al contrario, resulta mucho más determinante la estrategia que se adopta al combatir la propagación mediante tests masivos y seguimiento de la trazabilidad de los infectados (Corea del Sur) o mediante la adopción de medidas preventivas en etapas muy tempranas (Portugal).

Hay una cita atribuida al rey Salomón que dice “Donde hay soberbia, allí habrá ignorancia; más donde hay humildad, habrá sabiduría”. Esta crisis debe servir como cura de humildad para los Gobiernos de muchos países y, vistos los datos especialmente, para el Gobierno de España. Para aplicar medidas que prevengan los efectos de futuros rebrotes las autoridades españolas deberían aprender de los casos de éxito (Corea y Portugal) y de los errores propios y de otros (Italia).

Puedes descargarte el informe completo de Power BI aquí.

Nota: post actualizado con los datos a 07/05/2020.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s