Desambiguación de términos basada en IDF aplicada a recuperación de información

  1. Perea Ortega, José Manuel
  2. Martínez Santiago, Fernando
  3. García Cumbreras, Miguel Ángel
  4. Montejo Ráez, Arturo
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2011

Número: 46

Páginas: 99-106

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural

Resumen

Por regla general, la aplicación de la desambiguación del sentido de las palabras (Word Sense Disambiguation, WSD) viene determinada exclusivamente por la confianza en el sistema desambiguador utilizado. En este trabajo se realiza un estudio en el ámbito de la Recuperación de Información (Information Retrieval, IR) sobre la incidencia que tiene en la desambiguación otros factores, tales como la confianza en la herramienta de desambiguación, el grado de polisemia o granularidad y la diferencia en la fuerza de discriminación entre el término original y el desambiguado. Por tanto, se propone un enfoque para decidir si un término debe ser desambiguado o no y aplicarlo a recuperación de información. Finalmente, se muestra que una desambiguación selectiva de términos basada en Frecuencia Inversa de Documento (Inverse Document Frequency, IDF) mejora ligeramente el rendimiento de un sistema de recuperación de información.

Referencias bibliográficas

  • Agirre, E. y P.G. Edmonds. 2006. Word Sense Disambiguation: Algorithms and Applications. Springer.
  • Agirre, E. y O.L. Lacalle. 2003. Clustering wordnet word senses. En RANLP, volumen 260 de Current Issues in Linguistic Theory (CILT), páginas 121–130.
  • Agirre, E. y O.L. Lacalle. 2007. Ubc-alm: combining k-nn with svd for wsd. En SemEval '07: Proceedings of the 4th International Workshop on Semantic Evaluations, páginas 342–345, Morristown, NJ, USA. Association for Computational Linguistics.
  • Agirre, E., G.M. Di Nunzio, N. Ferro, T. Mandl, y C. Peters. 2008. Clef 2008: Ad hoc track overview. En CLEF, volumen 5706 de Lecture Notes in Computer Science, páginas 15–37. Springer.
  • Agirre, E., G.M. Di Nunzio, T. Mandl, y A. Otegi. 2009. Clef 2009 ad hoc track overview: Robust-wsd task. En CLEF, volumen 6241 de Lecture Notes in Computer Science, páginas 36–49. Springer.
  • Chan, Y.S., H. Tou Ng, y Z. Zhong. 2007. Nus-pt: Exploiting parallel texts for word sense disambiguation in the english allwords tasks. En Proceedings of the 4th International Workshop on Semantic Evaluations (SemEval 2007), páginas 253– 256.
  • Gale, W., K.W. Church, y D. Yarowsky. 1992. Estimating upper and lower bounds on the performance of word-sense disambiguation programs. En Proceedings of the 30th annual meeting on Association for Computational Linguistics, páginas 249– 256. ACL.
  • Gonzalo, J., F. Verdejo, I. Chugur, y J. Cigarran. 1998. Indexing with WordNet synsets can improve Text Retrieval. En Proceedings of the COLING/ACL '98 Workshop on Usage of WordNet for NLP, páginas 38–44.
  • Krovetz, R. y W.B. Croft. 1992. Lexical ambiguity and information retrieval. ACM Trans. Inf. Syst., 10(2):115–141.
  • Martínez-Santiago, F., J.M. Perea-Ortega, y M.A. García-Cumbreras. 2008. Evaluating word sense disambiguation tools for information retrieval task. En CLEF, volumen 5706 de Lecture Notes in Computer Science, páginas 113–117. Springer.
  • Papineni, K. 2001. Why inverse document frequency? En NAACL '01: Second meeting of the North American Chapter of the Association for Computational Linguistics on Language technologies, páginas 1–8. ACL.
  • Porter, M. F. 1980. An algorithm for suffix stripping. Program, 14(3):130–137.
  • Sanderson, M. 2000. Retrieving with good sense. Information Retrieval, 2(1):45–65.
  • Ureña-López, L.A., M. Buenaga-Rodríguez, y J.M. Gómez. 2001. Integrating Linguistic Resources in TC through WSD. Computers and the Humanities, 35(2):215–230.
  • Voorhees, E.M. 1993. Using wordnet to disambiguate word sense for text retrieval. En Proceedings of ACM SIGIR Conference, páginas 171–180.
  • Wallis, P. 1993. Information retrieval based on paraphrase. En Proceedings of PACLING Conference.
  • Weiss, S.F. 1973. Learning to disambiguate. Information Storage and Retrieval, 9(1):33–41.