NECOSAn annotated corpus to identify constructive news comments in Spanish

  1. Pilar López Úbeda
  2. Flor Miriam Plaza del Arco
  3. Manuel Carlos Díaz Galiano
  4. María Teresa Martín Valdivia
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2021

Número: 66

Páginas: 41-51

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural


En este artículo presentamos un corpus de noticias y comentarios en español (NECOS). Estas noticias están publicadas en el periódico El Mundo en un período comprendido entre el 3 de abril y el 30 de abril de 2018. El corpus contiene un total de 10 noticias y 1.419 comentarios. Siguiendo un esquema de anotación, tres anotadores etiquetaron manualmente los comentarios como constructivos y no constructivos obteniendo un promedio de 78,97 usando el coeficiente de kappa de Cohen. En este estudio nos centramos en estudiar la constructividad y hacer la evaluación del corpus NECOS. Para abordar este objetivo, proponemos la experimentación con diferentes sistemas basados en Procesamiento del Lenguaje Natural usando aprendizaje automático: un clasificador tradicional y métodos recientes basados en Transformers. Concretamente, comparamos modelos multilingües con un modelo monolingüe entrenado para el español. Con ello, pretendemos demostrar la importancia de crear recursos entrenados para un idioma en particular. El modelo monolingüe evaluado en NECOS obtiene el mejor resultado alcanzando un 77,24% de macro-average F1.

Información de financiación

This work has been partially supported by a grant from European Regional Development Fund (ERDF), LIVING-LANG project [RTI2018-094653-B-C21], and the Ministry of Science, Innovation and Universities (scholarship [FPI-PRE2019-089310]) from the Spanish Government.


Referencias bibliográficas

