Categorización de textos multilingües basada en redes neuronales

  1. Martín Valdivia, María Teresa
  2. García Vega, Manuel
  3. Ureña López, Luis Alfonso
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2001

Título del ejemplar: XVII Congreso de la SEPLN: Sociedad Española para el Procesamiento del Lenguaje Natural: Universidad de Jaén, 12-14 septiembre 2001

Número: 27

Páginas: 265-272

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural

Resumen

Los métodos de acceso a la información, hoy en día, deben mejorarse para superar la sobrecarga de información existente. Las tareas de clasificación de textos como la categorización de documentos puede ayudar a los usuarios a acceder a gran cantidad de información (texto) disponible en Internet y en sus organizaciones. En este trabajo presentamos un sistema de categorización multilingüe basado en corpus paralelos, concretamente la Biblia Políglota, en español e inglés. El objetivo es categorizar textos en estas lenguas usando un entrenamiento de textos multilingües. Para ello, empleamos Redes Neuronales en CT, que se comportan mucho mejor que el ampliamente utilizado algoritmo de Rocchio. El algoritmo de Widrow-Hoff y el basado en el Gradiente Exponenciado de Kivinen-Warmuth han sido usados con éxito en PLN y en particular en CT. Proponemos el uso de un método, novedoso en PLN, de aprendizaje competitivo, concretamente el algoritmo de aprendizaje por cuantificación vectorial (LVQ). Los resultados que presentamos muestran que el LVQ mejora significativamente a los otros algoritmos de aprendizaje.