AndresAlonso-Danielpena-SEIO-FBBVA-2021

Andrés M. Alonso Fernández y Daniel Peña Sánchez de Rivera

Premios Sociedad de Estadística e Investigación Operativa (SEIO)-Fundación BBVA

Mejor contribución en Estadística e Investigación Operativa aplicada a la Ciencia de Datos y el Big Data

2021

Andrés M. Alonso Fernández y Daniel Peña Sánchez de Rivera (Universidad Carlos III de Madrid) han desarrollado un método que, por primera vez, permite clasificar series temporales de datos por su dependencia. Esta “metodología innovadora”, en palabras del jurado, ha sido publicada en Statistics and Computing bajo el título “Clustering time series by linear dependency”.

CONTRIBUCIÓN

Premios Sociedad de Estadística e Investigación Operativa – Fundación BBVA

2021

Vídeo

Entrevista con los premiados

Discurso

Andrés M. Alonso Fernández y Daniel Peña Sánchez de Rivera

“Tradicionalmente el procedimiento que se había utilizado para clasificar series temporales era mirar su dinámica interna y poner juntas series que presentan una dinámica similar. Pero nosotros pensamos que mucho más importante que la dinámica interna es la relación entre las series, para saber cómo enlaza, por ejemplo, la evolución del ejercicio que hace una persona con otras variables que influyen en su bienestar”, explica Daniel Peña.

“La pandemia es un ejemplo de cómo hemos podido avanzar muy rápidamente gracias a la utilización masiva de datos y a la comunicación y la transmisión de información entre distintos grupos

El abordaje clásico se explica porque no estaba claro cómo encontrar una medida de la dependencia temporal entre dos variables y plasmarla en un valor. Este problema es el que resuelven Alonso y Peña mediante un código que detecta lo unidas que están dos series, lo que permite mirar cómo evolucionan conjuntamente las variables y predecir cómo se comportará una de ellas sabiendo el comportamiento de la otra. Los autores han testado el método con series temporales de consumo de electricidad y han comprobado que el ordenador agrupa automáticamente datos relevantes y extrae grupos afines –días y horas de mayor o menor consumo– incluso aunque ignore la naturaleza precisa de los datos que está analizando. El código se ha puesto a disposición de la comunidad investigadora para quien quiera utilizarlo.

Andrés Alonso pone de relieve que esta contribución es “importante por su impacto en otras áreas de conocimiento donde aparecen series temporales: cómo se relacionan los índices de precios de distintos productos o las demandas de diferentes clases de clientes”. Daniel Peña considera que es un ejemplo más de cómo la ciencia de datos contribuye al bienestar: “Es fundamental analizar los datos bien para sacar conclusiones realistas. La pandemia es un ejemplo de cómo hemos podido avanzar muy rápidamente gracias a la utilización masiva de datos y a la comunicación y la transmisión de información entre distintos grupos”.