Uso de la detección de bigramas para categorización de texto en un dominio científico

  1. Montejo Ráez, Arturo
  2. Martín Valdivia, María Teresa
  3. Perea Ortega, José Manuel
  4. Ureña López, Luis Alfonso
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2010

Número: 44

Páginas: 91-98

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural

Resumen

En este artículo se presentan una serie de experimentos aplicando la técnica de detección de multi-palabras para categorización de texto en un dominio científico. Para ello, se ha utilizado parte de la colección de artículos científicos de Física de Altas Energías (HEP) proporcionada por el Laboratorio Europeo de Física de Partículas (CERN). Los algoritmos de aprendizaje supervisado empleados para la experimentación han sido Rocchio y PLAUM. La técnica de detección de multi-palabras utilizada se ha limitado a secuencias fijas de dos términos como máximo, es decir, lo que se conoce como bigramas. El objetivo de este trabajo ha sido comprobar si el uso de bigramas frecuentes como términos característicos puede ser una mejora para la tarea de categorización de textos en este dominio específico, llegando a la conclusión de que la detección de multi-palabras no merece la pena ser usada para esta tarea en el dominio HEP.

Referencias bibliográficas

  • Buenaga, M., J.M. Gómez, y B. Díaz. 1997. Using wordnet to complement training information in text categorization. En Proeedings of Se ond International Conference on Reent Advanes in Natural Language Proessing (RANLP).
  • Cavnar, W.B. y J.M. Trenkle. 1994. N-gram- based text categorization. En Symposium On Doument Analysis and Information Retrieval, páginas 161-175, Las Vegas.
  • Churh, K. W. y P. Hanks. 1990. Word as-so iation norms, mutual information and lexiography. Computational Linguistis, 16(1):22-29.
  • Kilgarriff, A. y D. Tugwell. 2001. WORD SKETCH: Extration and display of significant collocations for lexiography. En Proc. Collocations Workshop, ACL 2001, páginas 32-38.
  • Lewis, D. D. 1992. Feature Seletion and Feature Extration for Text Categorization. En Proeedings of Speeh and Nat- ural Language Workshop, páginas 212-217, San Mateo, California. Morgan Kauf-mann.
  • Li, Y., H. Zaragoza, R. Herbri h, J. Shawe-Taylor, y J. Kandola. 2002. The per ep-ron algorithm with uneven margins. En Proeedings of the International Confer- ence of Machine Learning (ICML'2002).
  • MacKay, David J. C. 2003. Information theory, inference, and learning algorithms? Cambridge.
  • Peng, F. y D. Schuurmans. 2003. Combining naive bayes and n-gram language models for text classification. En Fabrizio Sebas- tiani, editor, ECIR, volumen 2633 de Lec-ture Notes in Computer Sience, páginas 335-350. Springer.
  • Sebastiani, F. 2002. Machine learning in au-tomated textcategorization. ACM Com- put. Surv., 34(1):1-47.
  • Vassilevskaya, Lyubov A. 2002. An ap- proach to automatic indexing of sien- tific publications in high energy physis for database spires-hep. Master's thesis, Fachhochsule Potsdam, Institut für Infor- mation und Dokumentation, September.