Una aproximación léxico-semántica para el mapeado automático de medicamentos y su aplicación al enriquecimiento de ontologías farmacoterapéuticas

Cruañes Vilas, Jorge

Una aproximación léxico-semántica para el mapeado automático de medicamentos y su aplicación al enriquecimiento de ontologías farmacoterapéuticas

Cruañes Vilas, Jorge

Dirigida por:

M. Teresa Romá Ferri Director/a
Rafael Muñoz Guillena Codirector/a

Universidad de defensa: Universitat d'Alacant / Universidad de Alicante

Fecha de defensa: 01 de octubre de 2014

Tribunal:

Luis Alfonso Ureña López Presidente
Paloma Moreda Pozo Secretario/a
Arturo Romero Gutiérrez Vocal

Tipo: Tesis

Teseo: 369487 DIALNET RUA editor

Resumen

1. Antecedents i estat actual del tema / Antecedentes y estado actual del tema Recientemente ha entrado en vigor en España una nueva legislación que afecta a la información existente en los medicamentos comercializados en este país. Ésta obliga a la inclusión de información de correspondencia respecto a la terminología internacional multilingüe SNOMED-CT. Este proceso es realizado actualmente de forma manual. Este es el punto de partida de este trabajo. Por tanto, el primer objetivo de esta tesis es obtener un método capaz de realizar estas correspondencias (mapeados) de forma automática. Para ello se hará uso de SNOMED-CT como terminología destino de los mapeados y, como origen, los medicamentos comercializados en España existentes en la ontología OntoFIS. Esta ontología ha sido poblada de forma semi-automática a partir de la base de datos oficial del Ministerio de Sanidad Español DIGITALIS. Usar una ontología en lugar de directamente la base de datos aporta ciertos beneficios, como la existencia de conocimiento semántico explicitado (relaciones semánticas), que supondrán una ayuda en el propio proceso de mapeado y, posteriormente, en otros procesos de marcado, extracción de información o clasificación. Para poder alcanzar este objetivo, sin embargo, es necesario equiparar los niveles de especificidad (también conocida como granularidad) de ambos recursos (OntoFIS y SNOMED-CT), ya que no es posible mapear dos recursos con diferentes granularidades. Finalmente, tras haber logrado establecer los mapeados entre ambas terminologías, el último objetivo de la tesis será el de utilizar dichos mapeados para ampliar semánticamente la ontología OntoFIS. Para la consecución de estos tres objetivos, y tras haber estudiado los trabajos existentes en el domino de salud en castellano e inglés, se ha optado por utilizar técnicas de Procesamiento del Lenguaje Natural (PLN), combinándolo con un sistema basado en patrones. Partiendo de las etiquetas del nombre de los medicamentos comercializados en España (nombres de especialidad) junto con las especificaciones existentes en la legislación vigente, se han extraídos una serie de patrones que ayudarán en el proceso de identificación de los elementos de un medicamento, como por ejemplo sus principios activos, sus concentraciones o la población objetivo a la que van dirigidos. Tras haber identificado los elementos componentes de la denominación de los medicamentos, se procede a crear nuevas etiquetas automáticamente para equiparar su granularidad a la existente en SNOMED-CT. Seguidamente se procede al mapeado de las nuevas etiquetas sobre las existentes en SNOMED-CT. El carácter multilingüe de ambos recursos permite poder utilizar el idioma castellano para realizar dicho mapeado. El mapeado se lleva a cabo mediante técnicas de PLN basadas en la similitud léxica, utilizando complementariamente una serie de recursos semánticos específicos creados manualmente. Para establecer la correspondencia se han considerado cuatro grados de mapeado. Estos grados van desde la equivalencia semántica absoluta hasta un mínimo nivel de similitud. De esta forma se maximiza la cobertura de los mapeados. Seguidamente, a partir de los resultados obtenidos en los mapeados y teniendo en cuenta los cuatro grados de diferenciación de los mapeados, se amplía el conocimiento de OntoFIS mediante un sistema basado en reglas. Estas reglas establecen cuánta información puede ser recuperada de los mapeados establecidos, en base al grado de similitud del mapeado. Dichas reglas persiguen evitar introducir información incorrecta o ambigua en OntoFIS. Para concluir, se ha realizado una prueba final a la propuesta, con el fin de establecer unos resultados sólidos sobre el funcionamiento global, validez y seguridad de la propuesta presentada, evitando el sesgo por el estudio cualitativo y las pruebas piloto en el refinamiento de los algoritmos propuestos. Esta prueba persigue una confianza en los resultados del 95%, con un margen de error del 5%. Tras la evaluación de dicha prueba se ha concluido que se han alcanzado todos los objetivos propuestos satisfactoriamente. En dichas pruebas la cobertura obtenida ha variado entre el 90,96% y el 100% y la precisión ha estado comprendida entre el 77,88% y el 100%.