Integración de fuentes de información formales e informales para la identificación del foco geográfico en el texto

  1. Peregrino Torregrosa, Fernando Samuel
Dirigida por:
  1. David Tomás Díaz Director/a
  2. Fernando Llopis Pascual Director/a

Universidad de defensa: Universitat d'Alacant / Universidad de Alicante

Fecha de defensa: 23 de septiembre de 2016

Tribunal:
  1. Luis Alfonso Ureña López Presidente
  2. Patricio Martínez Barco Secretario/a
  3. Paloma Martínez Fernández Vocal

Tipo: Tesis

Teseo: 432174 DIALNET lock_openRUA editor

Resumen

El objetivo principal de esta investigación es el análisis de la información espacial en el texto, afrontando para ello el problema de la detección del foco geográfico en textos de distinta naturaleza, pudiendo ser estos tanto textos formales (aquellos que pertenecen a medios de comunicación) como informales (aquellos que han sido publicados en redes sociales tales como Twitter por los propios usuarios). Para dicho cometido se han empleado técnicas de aprendizaje automático tales como máquinas de vectores de soporte (SVM), modelos de lenguaje y técnicas de reducción de características. Además, para resolver el ámbito geográfico de los textos pertenecientes a los corpus propuestos, se ha tenido en cuenta la cantidad de textos existentes para poder realizar el entrenamiento de los algoritmos de aprendizaje automático. De este modo, se han realizado comparaciones en las que se tenía una gran cantidad de textos pertenecientes al corpus que se pretendía clasificar geográficamente para poder entrenar debidamente el sistema, y otras aproximaciones en las que no se disponía de dicha cantidad de textos pertenecientes a la propia fuente a clasificar, por lo que se ha realizado una aproximación en la que se pretendía identifica el foco geográfico de estos textos entrenando mediante la asistencia de otros textos de la misma o distinta formalidad. Por otro lado, a diferencia de las aproximaciones actuales centradas exclusivamente en el uso de información geográfica, nuestro objetivo es mejorar la desambiguación de topónimos y la detección del foco geográfico mediante la incorporación de conocimiento general del mundo (como entidades, roles, fechas y eventos). La hipótesis seguida en esta tesis es que la información general del mundo asociada a las localizaciones geográficas puede mejorar la desambiguación de topónimos y la localización del foco geográfico en los documentos. La presencia en el texto de determinados eventos, nombres de personas, de organizaciones, fechas o incluso términos comunes, puede ser de gran utilidad para detectar de qué localidad concreta nos habla el texto (desambiguación de topónimos) y determinar su importancia con respecto al contenido del documento (detección del ámbito geográfico). Más aún, este tipo de información general podría servirnos para detectar el foco geográfico sin necesidad de que el nombre de la localización aparezca en el texto de forma explícita, infiriéndolo a partir de la aparición de determinados personajes, eventos, etc. relacionados con dicha localización.