Técnicas de clasificación de opiniones aplicadas a un corpus en español

  1. Martínez Cámara, Eugenio
  2. Martín Valdivia, María Teresa
  3. Perea Ortega, José Manuel
  4. Ureña López, Luis Alfonso
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2011

Número: 47

Páginas: 163-170

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural


El análisis de sentimientos es una nueva tarea que combina técnicas de minería de texto y Procesamiento del Lenguaje Natural (PLN). Aunque existen ya varios trabajos relacionados con la temática, la mayoría de ellos únicamente usan textos en inglés. Sin embargo, el número de páginas webs, blogs u opiniones vertidas en Internet que usan cualquier idioma, no sólo el inglés, crece exponencialmente. De hecho, otros idiomas como el español incrementan su presencia en la red día a día. Es por ello que en este trabajo se presenta un estudio experimental sobre un corpus de opiniones sobre películas escrito en español. Nuestro objetivo principal consiste en comprobar cómo se comportan varios clasificadores entrenados para determinar la polaridad de las opiniones en dicho corpus. Para ello hemos usado dos clasificadores (SVM y Naïve Bayes) variando además distintos parámetros como el esquema de pesado o la utilización o no de stopper y stemmer. Los experimentos realizados muestran que SVM se comporta mejor que Naïve Bayes y que el uso de stopper y stemmer también mejora los resultados.

Referencias bibliográficas

  • Agić, Z., N. Ljubešić, M. Tadić. 2010. Towards Sentiment Analysis of Financial Texts in Croatian. In Proceedings of Language Resources and Evaluation (LREC).
  • Ahmad, Cheng y Almas. 2006. Multi-lingual sentiment analysis of financial news streams. Proceedings of Science, GRID2006.
  • Boldrini, E., A. Balahur, A., P. Martínez-Barco, and A. Montoyo. 2009. Emotiblog: an annotation scheme for emotion detection and analysis in nontraditional textual genres. In DMIN, pp 491–497. CSREA Press.
  • Chang, C.C. y C.J. Lin, 2001. LIBSVM: a Library for Support Vector Machines. Software disponible en http://www.csie.ntu.edu.tw/~cjlin/libsvm.
  • Cruz, F.L., J.A. Troyano, F. Enríquez, y J. Ortega. 2008. Clasificación de documentos basada en la opinión: experimentos con un corpus de críticas de cine en español. Sociedad Española para el Procesamiento de Lenguaje Natural , nº 41
  • Del-Hoyo, R., I. Hupont, F.J. Lacueva, D. Abadía. 2009. Hybrid Text Affect Sensing System for Emotional Language Analysis. Proceedings of the International Workshop on Affective-Aware Virtual Agents and Social Robots
  • Denecke, K. 2008. Using SentiWordNet for multilingual sentiment analysis. In ICDE Workshops, pp 507–512. IEEE Computer Society.
  • Esuli, A. and F. Sebastiani. 2006. SentiWordNet: A Publicly Available Lexical Resource for Opinion Mining. In Proceedings of Language Resources and Evaluation (LREC).
  • Genkin, A., D.D. Lewis, D. Madigan. 2004. Large-Scale Bayesian Logistic Regression for Text Categorization. Technometrics, Vol. 49, No. 3
  • Ghorbel, H. y D. Jacot. 2010. Sentiment analysis of French movie reviews. Proceedings of the 4th international Workshop on Distributed Agent-based Retrieval Tools (DART 2010), June 2010, Geneva.
  • Mitchell, T. 1997. Machine Learning. Ed. McGraw-Hill.
  • Ortiz, Antonio Jesús, M.T: Martín, L.A. Ureaña, M.A. García. 2005. Detección automática de Spam utilizando Regresión Logística Bayesiana. Procesamiento del Lenguaje Natural. Nº 35, pp. 127-133. 2005.
  • Pang, B. and L. Lee, 2008. Opinion mining and sentiment analysis. Found. Trends Inf. Retr., 2(1-2):1–135.
  • Sebastiani, F. 2002. Machine learning in automated text categorization. ACM Comput. Surv. , 34(1):1-47.
  • Stone, P. 1966. The General Inquirer: A Computer Approach to Content Analysis. The MIT Press.
  • Vapnik, V. 2008. Statistical Learning Theory. Wiley, Chichester, GB.
  • Whissell, C.M. 1989. The Dictionary of Affect in Language. Emotion: Theory, Research and Experience. Vol 4, The Measuerement of Emotions. R. Plutchik and H. Kellerman Eds. New York: Academic.
  • Zhang, C., D. Zeng, J. Li, F.Y. Wang, and W. Zuo, 2009. Sentiment analysis of chinese documents: From sentence to document level. JASIST, 60(12):2474–2487.