INVESTIGADOR PRINCIPAL
MÁS SOBRE
Marçal RusiñolEQUIPO DE INVESTIGACIÓN
Dimosthenis Karatzas, Josep Lladós Canet y Ernest Valveny Llobet, Universidad Autónoma de Barcelona; Lluís Gómez Bigordà, Centro de Visión por Computador.
ENTIDAD ASOCIADA
DESCRIPCIÓN
El objetivo es aplicar por primera vez a las hemerotecas digitales los últimos enfoques en aprendizaje profundo, expandiendo el valor de la prensa como repositorio histórico.
La información contenida en hemerotecas digitales tiene un gran valor cultural, histórico y antropológico, ya que puede ayudar en la comprensión del pasado. En España, las hemerotecas digitales contienen miles de títulos, resultando en millones de páginas de prensa histórica digitalizadas, y accesibles a través de la red. Normalmente, el formato de las publicaciones digitales es PDF con OCR, lo que permite buscar palabras en el texto de la publicación, pero este paradigma de búsqueda presenta ciertos límites.
Este proyecto ofrecerá soluciones para desbloquear los contenidos semánticos, tanto textuales como fotográficos, facilitando las búsquedas y brindando técnicas de visualización de datos avanzadas, para ayudar al acceso universal al conocimiento humanístico y cultural que aportan las hemerotecas digitales.
El estado actual de la técnica permite el uso de herramientas de procesamiento de lenguaje natural y de visión computarizada automática para analizar imágenes y texto proporcionando una descripción semántica de sus contenidos. La investigación se centrará en los últimos enfoques de aprendizaje profundo, aplicado por primera vez al contexto de prensa histórica. El resultado final del proyecto será una plataforma para el procesamiento y análisis de información textual y visual contenida en hemerotecas digitales.
Dicho procesamiento permitirá hacer búsquedas semánticas, yendo más allá de la simple búsqueda por palabras clave, y permitiendo visualizaciones avanzadas de los contenidos de las hemerotecas digitales.