Resolución de la ambigüedad léxica mediante aprendizaje por cuantificación vectorial

García Vega, Manuel

Resolución de la ambigüedad léxica mediante aprendizaje por cuantificación vectorial

García Vega, Manuel

Dirigida por:

Luis Alfonso Ureña López Director

Universidad de defensa: Universidad de Jaén

Fecha de defensa: 20 de diciembre de 2006

Tribunal:

José Miguel Toro Bonilla Presidente/a
María Teresa Martín Valdivia Secretaria
Lidia Moreno Boronat Vocal
Manuel Palomar Sanz Vocal
Andrés Montoyo Guijarro Vocal

Departamento:

INFORMÁTICA

Tipo: Tesis

Teseo: 139118 DIALNET

Resumen

La desambiguación del sentido de las palabras (Word Sense Disambiguation) es el problema de asignar un sentido determinado a una palabra polisémica, usando su contexto, Este problema ha sido de interés, prácticamente desde el comienzo de la informática, en los años 50. La desambiguación es una tarea intermedia y no un fin en sí misma. En particular, es muy útil, a veces imprescindible, para muchos problemas del PLN,como por ejemplo la recuperación de información, la categorización de textos, la traducción automática... El objetivo de esta tesis es implementar un desambiguador del sentido de las palabras basado en el Modelo de Espacio Vectorial optimizando los pesos de los vectores del entrenamiento usando la red neuronal LVQ (Learning Vector Quantization) del modelo neuronal supervisado de Kohonen y el de proponer un método uniforme de integración de recursos que sirvan para el entrenamiento de la red. Los parámetros de la red LVQ han sido optimizados para el problema de la desambiguación. En este trabajo se ha demostrado que las redes neuronales, concretamente los modelos de Kohonen, resuelven brillantemente el problema de la resolución de la ambigüedad léxica, aportando robustez, porque la red LVQ es insensible a pequeños cambios observándose unos resultados homogéneos independientemente del entrenamiento; flexibilidad, porque es fácilmente aplicable a cualquier tarea de PLN; escalabilidad, porque pueden introducirse multitud de textos de entrenamiento para ajustarlo a cualquier dominio y efectividad, porque los resultados obtenidos son comparables y en muchos casos superan a los métodos tradicionales utilizados para resolver los mismos problemas. Se han integrado el corpus SemCor y la base de datos léxica WordNet. Además, se ha aportado un método de integración automática de cualquier corpus. Los experimentos realizados muestran el buen comportamiento de esta red para el problema concreto de la desambiguación.