INVESTIGADOR PRINCIPAL
EQUIPO DE INVESTIGACIÓN
Verónica Romero Gómez (Universitat Politècnica de València); Alejandro Héctor Toselli (Universitat Politècnica de València); Vicente Bosch Campos (Universitat Politècnica de València); Lorenzo Quirós Díaz (Universitat Politècnica de València); José Ramón Prieto Fontcuberta (Universitat Politècnica de València).
ENTIDAD ASOCIADA
DESCRIPCIÓN
Old Weather, un proyecto impulsado por MET Office -la agencia estatal británica de Meteorología- ha puesto a disposición de la comunidad investigadora y del público general miles de cuadernos de bitácora digitalizados que contienen millones de registros que realizaban los barcos cuando estaban en alta mar. En ellos se anotaban minuciosamente las condiciones climatológicas diarias: viento, velocidad, temperatura, coordenadas, etc.
Estos datos son de indudable valor para extraer información sobre la evolución de la climatología en los últimos doscientos años, pero la digitalización de los documentos proporciona imágenes, no textos, y su transcripción manual se suele considerar inviable por su coste en recursos humanos.
Dado que se trata de textos manuscritos -donde las letras están enlazadas y la caligrafía varía tanto como el autor de cada entrada- las técnicas habituales de OCR (reconocimiento de caracteres) son inaplicables. Por este motivo, el proyecto aplicará tecnologías de machine learning -más cercanas, de hecho, a las de reconocimiento del habla- para entrenar modelos morfológicos de caracteres a partir de ejemplos de imágenes de escritura manuscrita. De este modo, se podrán indexar automáticamente millones de entradas, ofreciendo cuál es la probabilidad de que un determinado texto figure en ella. Esto convertiría documentos que hoy son inaccesibles en la práctica en fuentes históricas en las que se pueden realizar búsquedas.
El equipo ha aplicado con éxito esta metodología a los fondos de teatro español del Siglo de Oro que alberga la Biblioteca Nacional o a proyectos en curso con la Biblioteca Nacional de Finlandia, pero la dificultad añadida de HisClima radica en enseñar a la máquina a reconocer tablas manuscritas de distinto formato -y la relación entre las celdas- y a trabajar con números, pues en este tipo de formato es en el que se introducían los registros.