Generación de un tesauro de similitud multilingüe a partir de un corpus comparable a CLIR

  1. Martín Valdivia, María Teresa
  2. García Vega, Manuel
  3. Martínez Santiago, Fernando
  4. Ureña López, Luis Alfonso
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2002

Número: 28

Páginas: 55-62

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural

Resumen

En este trabajo se describe un nuevo enfoque para generar de manera automática un tesauro de similitud a través de un corpus comparable con el fin de aplicarlo a tareas de recuperación de información multilingüe. Aunque la disponibilidad de recursos lingüísticos es cada vez mayor, todavía hoy en día es dificil el acceso a algunos de ellos, sobre todo en ámbitos multilingües. Incluso, la propia complejidad de la tarea CLIR requiere el uso conjunto de varios recursos para aumentar la eficacia del sistema. Los corpus comparables son uno de estos recursos multilingües especialmente interesantes por su disponibilidad y por la posibilidad de generarlos automáticamente. Sin embargo, para que sean útiles deben estar alineados al menos a nivel de documento. Para llevar a cabo esta tarea, se han utilizado técnicas de clustering. Una vez que los documentos están alineados, se genera el tesauro de similitud a partir de ellos. Los experimentos realizados muestran que los tesauros de similitud multilingües son una buena alternativa cuando otros recursos más adecuados no están disponibles.