Linguistic features integration for text classification tasks in Spanish

García Díaz, José Antonio

Linguistic features integration for text classification tasks in Spanish

García Díaz, José Antonio

Dirigida por:

Rafael Valencia García Director/a

Universidad de defensa: Universidad de Murcia

Fecha de defensa: 05 de julio de 2022

Tribunal:

María del Pilar Salas-Zárate Presidente/a
Miguel Ángel Rodríguez García Secretario/a
Salud M. Jiménez Zafra Vocal

Tipo: Tesis

Teseo: 824507 DIALNET DIGITUM editor

Resumen

Objetivos: En esta tesis doctoral se analizan dos hipótesis principales. Por un lado, que la inclusión de características lingüísticas capaces de capturar rasgos de los autores mejora el desempeño de los sistemas de clasificación automática (RH1) y que, por otro lado, estas características lingüísticas mejoran la interpretabilidad de los modelos resultantes (RH2). A continuación, se listan los objetivos específicos de esta investigación. • OB1. Obtención de una taxonomía de las diferentes características lingüísticas del español. • OB2. El desarrollo de la herramienta UMUTextStats y del léxico relacionado con cada característica dentro de la taxonomía. • OB3. El desarrollo de la herramienta UMUCorpusClassifier para la compilación y anotación de corpus en español. • OB4. Validación de la herramienta UMUTextStats en diferentes dominios. • OB5. Recopilación y anotación de corpus lingüísticos en español para realizar tareas de clasificación automática de textos en diferentes dominios. Metodología: A continuación, se describe la metodología seguida. En primer lugar, se desarrolló un estudio de herramientas similares a las que se quería construir. En concreto, LIWC es la herramienta de facto para la extracción de características en español. De esta herramienta, se identificaron una serie de carencias, tales como que ciertas características del español no estaban contempladas. En segundo lugar, se propuso una taxonomía de clasificación de las características lingüísticas en las diferentes categorías: fonética, morfosintaxis, corrección y estilo, semántica, pragmática, estilometría, léxico, y uso del lenguaje en redes sociales. En tercer lugar, se desarrolló la herramienta UMUTextStats, se compilaron los diccionarios para cada dimensión y se desarrollaron clases software para cada tipo de característica lingüística. En cuarto lugar, se construyó la herramienta UMUCorpusClassifier, que sirve para compilar y etiquetar corpus lingüísticos de manera automática o semiautomática. Finalmente, se emplearon las características obtenidas para construir sistemas de clasificación automática para tareas de análisis de sentimientos, análisis de emociones, perfilado de autores y detección de la sátira, entre otras tareas. Resultados: Cumplir con los objetivos marcados en esta tesis doctoral ha permitido publicar nuestras propuestas y resultados en revistas científicas de alto impacto, además de poder participar en congresos y conferencias internacionales. Los principales resultados obtenidos se presentan en esta tesis doctoral como compendio. • García-Díaz, J. A., Cánovas-García, M., & Valencia-García, R. (2020). Ontology-driven aspect-based sentiment analysis classification: An infodemiological case study regarding infectious diseases in Latin America. Future Generation Computer Systems, 112, 641-657. • García-Díaz, J. A., Cánovas-García, M., Colomo-Palacios, R., & Valencia-García, R. (2021). Detecting misogyny in Spanish tweets. An approach based on linguistics features and word embeddings. Future Generation Computer Systems, 114, 506-518. • García-Díaz, J. A., Colomo-Palacios, R., & Valencia-García, R. (2022). Psychographic traits identification based on political ideology: An author analysis study on Spanish politicians’ tweets posted in 2020. Future Generation Computer Systems, 130, 59-74. • García-Díaz, J. A., & Valencia-García, R. (2022). Compilation and evaluation of the Spanish SatiCorpus 2021 for satire identification using linguistic features and transformers. Complex & Intelligent Systems, 1-14. Además de la publicación de estos trabajos en revistas de impacto, las características lingüísticas han sido evaluadas en workshops internacionales, tales como IberLEF, SemEval, o FIRE. En estas competiciones, las características lingüísticas han sido evaluadas tanto de manera aislada como combinadas con modelos del estado de la técnica, consiguiendo resultados competitivos en casi todas las tareas. Conclusiones: Durante esta tesis doctoral hemos mostrado el desarrollo y evaluación de un conjunto de características lingüísticas en español que han probado su efectividad en tareas de clasificación automática. Estas características se pueden extraer con la herramienta UMUTextStats. La idea principal de esta tesis es que estas características se pueden incorporar a modelos de aprendizaje computacional mejorando, por un lado, su desempeño y, por otro lado, su interpretabilidad. La primera hipótesis se ha demostrado evaluando las características lingüísticas de UMUTextStats en distintos experimentos que se adjuntan como compendio de esta tesis, así como la participación en distintas competiciones internacionales, donde hemos obtenido resultados muy competitivos. Para la segunda hipótesis, obtuvimos para cada experimento la correlación entre las características lingüísticas con las etiquetas de los datasets, analizando el por qué y cuáles son las características más relevantes en dominios como la infodemiología, la identificación de misoginia, el discurso de odio, o perfilado de autores. Aunque los resultados han sido satisfactorios y prometedores, continuaremos mejorando los diccionarios y el desempeño de cada una de las características lingüísticas, así como traduciendo y adaptando la herramienta a otros idiomas tales como al inglés.