"El uso de Big Data para que los ordenadores mejoren la comprensión de textos en español, catalán, vasco y gallego (BigKnowledge)"

INVESTIGADOR PRINCIPAL

Eneko Agirre Bengoa, catedrático en el Departamento de Lenguajes y Sistemas Informáticos de la Universidad del País Vasco

EQUIPO DE INVESTIGACIÓN

German Rigau Claramunt (Universidad del País Vasco); Rodrigo Agerri Gascon (Universidad del País Vasco); Nora Aranberri Monasterio (Universidad del País Vasco); María Jesús Aranzabe Urruzola (Universidad del País Vasco); Arantza Díaz de Ilarraza Sánchez (Universidad del País Vasco); Itziar Gonzalez Dios (Universidad del País Vasco); Gorka Labaka Intxauspe (Universidad del País Vasco); Maite Oronoz Anchordoqui (Universidad del País Vasco); Mikel Artetxe Zurutuza (Universidad del País Vasco); Olatz Perez de Viñaspre (Universidad del País Vasco).

ENTIDAD ASOCIADA

Universidad del País Vasco

DESCRIPCIÓN

Actualmente, el inglés es el idioma que más recursos tiene, es decir, existen programas que analizan este lenguaje y extraen de grandes flujos de texto el conocimiento necesario para una aplicación en concreto. Este equipo de investigación quiere extrapolar esta compresión al español, catalán, vasco y gallego.

Eneko Agirre, investigador principal de este proyecto explica que actualmente hay grupos de investigación y multinacionales a nivel mundial que están desarrollando aplicaciones que analizando flujos de twitter y noticias entienden qué se dice sobre un producto, empresa o partido político. Por ejemplo, analizando las últimas noticias sobre un accidente aéreo en tiempo real a lo largo de un periodo de tiempo, la computadora podrá comprender si el principal causante es la compañía aérea o la constructora de aviones. En el campo biomédico se analizan artículos científicos e informes médicos y la máquina descubre reacciones adversas a medicamentos o relaciones entre síntomas y enfermedades que no se conocían. En ambos casos, la agregación a partir de grandes volúmenes de datos permite distinguir el conocimiento del resto de la información no relevante. Este proyecto permitirá que esos algoritmos que hasta ahora funcionan para el inglés puedan utilizarse para el español, catalán, vasco y gallego

Este proyecto es innovador en su campo ya que el grupo de investigación IXA de la Facultad de Informática de Universidad del País Vasco, ha desarrollado una técnica usando Deep Learning que permite representar en el mismo plano todos los idiomas en cuestión de procesamiento de texto. Hasta el momento hay muy pocos estudios en esta línea de investigación.

“El uso de Big Data para que los ordenadores mejoren la comprensión de textos en español, catalán, vasco y gallego (BigKnowledge)”

AYUDAS A EQUIPOS DE INVESTIGACIÓN CIENTÍFICA

INVESTIGADOR PRINCIPAL

EQUIPO DE INVESTIGACIÓN

ENTIDAD ASOCIADA

DESCRIPCIÓN