Análisis multidimensional de datos textuales en redes sociales

  1. Gutiérrez Batista, Karel
Dirigida por:
  1. María José Martín Bautista Director/a
  2. María Amparo Vila Miranda Director/a

Universidad de defensa: Universidad de Granada

Fecha de defensa: 16 de marzo de 2018

Tribunal:
  1. Miguel Delgado Calvo-Flores Presidente/a
  2. Ignacio Blanco Medina Secretario/a
  3. Carlos Molina Fernández Vocal
  4. Ernestina Menasalvas Vocal
  5. José Ángel Olivas Varela Vocal

Tipo: Tesis

Resumen

La popularidad y uso vertiginoso de las redes sociales en los últimos diez años, ha llevado a que decenas de millones de usuarios generen diariamente gigantescas cantidades de datos textuales. Este hecho ha agravado considerablemente la brecha que existe entre el crecimiento de los datos heterogéneos, semiestructurados y no estructurados, y las capacidades de procesamiento y análisis automático de forma masiva de la mayoría de las tecnologías y sistemas actuales que permitirían explotarlos adecuadamente. Se une a esto, el reto de la integración de dicha información textual con datos tradicionales, y de esta forma permitir a los analistas obtener provecho de este nuevo recurso. El procesamiento de datos masivos implica resumir y agrupar, y para ello las tecnologías Data Warehousing (DW) y Online Analytical Processing (OLAP) se presentan como las más adecuadas. Estas tecnologías basan su éxito en las ventajas de la integración, el almacenamiento y operaciones del modelo multidimensional. De esta forma, permiten el desarrollo de agregaciones a través de dimensiones convencionales y no convencionales sobre datos heterogéneos. Para el caso concreto de los datos textuales, primeramente deben sufrir algún tipo de transformación para llevarlos a una forma más estructurada que facilite su análisis. Para poder aplicar de forma satisfactoria las tecnologías DW y OLAP en el análisis de información textual provista por las redes sociales, resulta útil detectar previamente los principales contextos presentes en los textos, y para cada contexto, los tópicos más relevantes. Esto permitiría a los analistas segmentar los datos textuales por contextos, para luego tratarlos aprovechando las características y capacidades proporcionadas por el análisis multidimensional. En esta tesis se han logrado combinar las tres temáticas de la siguiente manera: Primero mediante el uso de técnicas de minería de datos, específicamente algoritmos de agrupamiento jerárquico y con el uso de recursos léxicos, se construye una dimensión contextual. Esta dimensión, presenta una estructura jerárquica donde cada nodo de la jerarquía representa un contexto al que están relacionados un conjuntos de documentos. Además para cada contexto y nivel de la dimensión, se cuenta con una jerarquía de consulta mediante la que se pueden realizar consultas por los principales tópicos presentes en este contexto. Todo el proceso anterior se realiza de forma automática. Contando con esta información, podemos crear un modelo multidimensional que brinde soporte a la dimensión contextual obtenida. Este modelo, además de soportar un nuevo tipo de dimensión, implementa las operaciones OLAP clásicas para este tipo de dimensiones, de tal forma que se puedan realizar análisis detallados mediante dicha dimensión relacionada con las dimensiones clásicas. Por último se implementan un conjunto de funcionalidades, las cuales son incorporadas en la herramienta Wonder OLAP Server 3.0, en adelante Wonder 3.0, mediante la cual se pondrá en práctica nuestra propuesta. Este sistema nos va a permitir analizar los datos textuales de las redes sociales Twitter y Dreamcatchers junto con datos estructurados, demostrando la utilidad de la dimensión contextual y el buen funcionamiento de Wonder.