Resolución automática de la ambigüedad lexica en tareas de clasificación automática de documentos

  1. Ureña López, Luis Alfonso
Dirigida por:
  1. Manuel de Buenaga Rodríguez Director/a

Universidad de defensa: Universidad de Granada

Fecha de defensa: 20 de octubre de 2000

Tribunal:
  1. Antonio Vaquero Sánchez Presidente/a
  2. Buenaventura Clares Rodríguez Secretario/a
  3. Pablo Gervás Gómez-Navarro Vocal
  4. Julio Gonzalo Arroyo Vocal
  5. Paloma Garrido Iñigo Vocal

Tipo: Tesis

Teseo: 81514 DIALNET

Resumen

En esta memoria se describen las tareas de análisis del contenido y se estudian tanto la resolución de la ambigüedad léxica como la clasificción de documentos, estableciendo paralelismos y elementos próximos entre ambos campos, En nuestro trabajo analizamos los recursos lingüisticos existentes e investigamos las formas en que éstos pueden mejorar la efectividad de la desambiguación. La principal aportación de esta Tesis consiste en la propuesta de un nuevo enfoque para la resolución de la ambigüedad léxica basado en la integración de recursos lingüisticos, para ellos se utiliza informaciónproveniente de un corupus de textos (SemCor) y de una base de datos léxica (WordNet). Se ha desarrollado una evalucaicóndirecta de la desambiguación, que muestra de forma experimental, sobre un amplio conjunto o colecciónde prueba, la efectividad del enfoque de desambiguaciónd e términos basado en la integración de recursos lingüisticos empleando una evaluación automática. Se aplica la resolución de la ambigüedad léxica a dos tareas concretas de clasificación de documentos: recuperación de información y categorización de textos. En el proceso de recuperación de información se expanden los términos de la consulta coninformación de WorlNet, una vez desambiguada mediante realimentación. En la categorización de textos se ha propuesto la resolución automática de la ambigüedad léxica enun enfoque también basado en la integración del corpus Reuters y la base de datos léxica WordNet. Este es un enfoque novedoso al incorporar la desambiguación automática en el proceso de integración de recursos lingüisticos en la tarea de categorización de textos. Finalmente, hemos expuesto y evaluado ambas tareas mediante un método sistemático que nos ha permitido comparar la efectividad en el ámbito de los sistemas de clasificación de documentos, tanto en recuperación de información como en categorización de text