Un sistema interactivo para la búsqueda de información en idiomas desconocidos por el usuario

López Ostenero, Fernando

Un sistema interactivo para la búsqueda de información en idiomas desconocidos por el usuario

López Ostenero, Fernando

Dirigida por:

Julio Gonzalo Arroyo Director/a
María Felisa Verdejo Maíllo Director/a

Universidad de defensa: UNED. Universidad Nacional de Educación a Distancia

Fecha de defensa: 16 de diciembre de 2002

Tribunal:

Manuel Palomar Sanz Presidente/a
Anselmo Peñas Padilla Secretario/a
Luis Alfonso Ureña López Vocal
Horacio Rodríguez Hontoria Vocal
Paloma Martínez Fernández Vocal

Tipo: Tesis

Teseo: 98597 DIALNET

Resumen

En este trabajo se presenta un asistente a la búsqueda de información e idiomas desconocidos que utiliza los sintagmas nominales como unidad fundamental de traducción de los documentos y de formulación y refinamiento de la consulta. El sistema: * Da soporte a la tarea de selección documental translingüe empleando un pseudo-resumen de los documentos basado en sintagmas nominales. * Da soporte a la formulación inicial de la consulta y a su posterior refinamiento apoyándose en la información contenida en los pseudo-resúmenes de los documentos. Para realizar el proceso de traducción, tanto de la consulta como de los pseudo-resúmenes, se genera previamente un diccionario bilingüe de sintagmas, utilizando un algoritmo que alinea sintagmas nominales entre dos idiomas utilizando exclusivamente información sobre los lemas de los términos que los componen, las posibles traducciones que ofrece un diccionario bilingüe, y las estadísticas de aparición de los sintagmas en dos corpus comparables. Sobre un conjunto de, aproximadamente, 21 millones de sintagmas de dos y tres lemas en castellano e inglés, el algoritmo es capaz de alinear 3.9 millones, con una precisión del 80% para los sintagmas de tres lemas y del 74% para los sintagmas de dos lemas más frecuentes. Los sintagmas nominales no alineados se traduccen mediante un algoritmo que busca iterativamente subsintagma maximales alineados y utiliza la información de las alineaciones para obtener traducciones óptimas de los términos que quedan aislados. La evaluación de los diferentes aspectos individuales del proceso se ha llevado a cabo en el marco de las evaluaciones comparadas iCLEF (Interactive Cross-Language Evaluation Forum), donde se comparan las aproximaciones propuestas con dos sistemas de referencia: * Los pseudo-resúmenes translingües obtienen una mejora del 25% en la medida oficial del iCLEF sobre una traducción proporcionada por un sistema de traducción automática (Systran Professional 3.0). Los usuarios son capaces de juzgar más rápidamente la relevancia de un documento utilizando los pseudo-resúmenes, con una precisión similar. * La interacción con sintagmas para la formulación y refinamiento de la consulta obtiene una mejora del 64% sobre una aproximación consistente en facilitar la selección interactiva de traducciones adecuadas para los términos de la consulta. Los usuarios formulan la consulta con más rapidez y mayor acierto, y realizan más interacciones, con el sistema basado en sintagmas que con el de traducción asistida. A los datos cuantitativos hay que añadir que, tanto los cuestionarios cumplimentados por los evaluadores como el estudio observacional de cada sesión de búsqueda, confirman cualitativamente estos resultados. Nuestros resultados cuestionan dos suposiciones implícitas en buena parte de la investigación en Recuperación de Información Multilingúe: la primera, que una vez encontrados los documentos en el idioma destino la traducción automática es la forma óptima de informar al usuario sobre su contenido; y la segunda, que en un entorno interactivo la forma óptima de formular y traducir la consulta es ayudando al usuario a seleccionar las traducciones adecuadas para cada término de la consulta.