Desambiguación de nombres de persona en la web en un contexto multilingüe
- Delgado Muñoz, Agustín Daniel
- Raquel Martínez Unanue Director/a
- Soto Montalvo Herranz Director/a
Universidad de defensa: UNED. Universidad Nacional de Educación a Distancia
Fecha de defensa: 30 de noviembre de 2016
- Luis Alfonso Ureña López Presidente
- Enrique Amigó Secretario/a
- Alexandra Balahur Dobrescu Vocal
Tipo: Tesis
Resumen
Esta tesisdoctoral trata la desambiguación de nombres de personas en la Web.Es- te problema puede describirse de la siguiente manera: dado el ranking de resultados devuelto por un motor de búsqueda tras consultar un nombre de persona,el objetivo consiste en agrupar los resultados debúsqueda de manera que cada grupo esté formado por las páginas web que hablan de un mismo individuo. Los motores de búsqueda más populares ofrecen pocas herramientas de desambiguación de este tipo de consultas, aunque sus estadísticas de us oreflejan que son muy frecuentes. Por este motivo,en los últimos años han surgido varias start-ups que ofrecen un servicio especializado de búsqueda de personas en Internet. Además,la comunidad científica ha mostrado interés en este problema por varias razones. Por un lado,los nombres de persona son un tipo de entidades nombradas especialmente ambiguo y,por este motivo, su desambiguación ha sido estudiada en diferentes contextos. Por otro lado,el escenario de búsqueda en la Web presenta varios retos:(i)las páginas web no tratan una temática determinada debido a su naturaleza heterogénea;(ii) la Web alberga cada vez más contenido en distintos idiomas debido a su naturaleza multilingüe; y (iii)la búsqueda en la Web requiere métodos poco costosos debido a que los usuarios de los motores de búsquedas esperan resolver sus consultas en muy pocot iempo. Por tanto, nos encontramos ante un problema real que ha suscitado el interés de la comunidad científica. La desambiguación de nombres de personas en la Web ha sido tratada en el estado del arte como un problema de clustering compuesto por dos fases principales.El objetivo de la primera fase consiste en representar los resultados de búsqueda mediante rasgos adecuados que sean de utilidad a la hora de identificar y distinguir a distintos individuos con el mismo nombre. Por otro lado,la segunda fase consiste en aplicar un algoritmo de clustering para agrupar las páginas web de acuerdo al individuo que mencionan. En particular,los mejores sistemas del estado del arte emplean una representación de los resultados de búsqueda consistente en una rica selección de rasgos de distinto tipo y agrupan las páginas web mediante un algoritmo de agrupamiento jerárquico aglomerativo tras haber aprendido previamente el valor de un cierto umbral de similitud mediante datos de entrenamiento.