Selección de las métricas más relevantes para la evaluación automática del rendimiento de los alumnos en cursos online basada en medidas de cantidad de información para datos imprecisos
- Junco Navascués, Luis Antonio
- Ana María Palacios Jiménez Zuzendarikidea
- Inés Couso Blanco Zuzendarikidea
Defentsa unibertsitatea: Universidad de Oviedo
Fecha de defensa: 2016(e)ko urtarrila-(a)k 27
- Francisco Herrera Triguero Presidentea
- José Otero Rodríguez Idazkaria
- María José del Jesús Díaz Kidea
Mota: Tesia
Laburpena
Los sistemas de evaluación automática han llegado a ser herramientas habituales dentro de los Sistemas de Gestión del Aprendizaje y de los Sistemas de gestión de Contenidos. Estos permiten interactuar a los docentes con grupos numerosos de estudiantes por medio de conferencias, trabajos, exámenes o pruebas. Los recursos necesarios para realizar un seguimiento continuo de los alumnos y la corrección de los trabajos o pruebas evaluables son tareas que consumen una gran cantidad de tiempo para las instituciones educativas. Existe una demanda creciente de técnicas inteligentes que ayuden al instructor a gestionar grandes grupos de estudiantes. En particular, son necesarios procedimientos que parcial o completamente automaticen el trabajo de evaluación continua, entendida ésta como la medición estandarizada de los niveles de adquisición de las competencias programadas para un determinado grupo de alumnos. Los Cursos Abiertos Masivos en Línea (MOOC) y la educación a distancia son ejemplos paradigmáticos de esta necesidad. Y más, teniendo en cuenta que la mayor parte de los MOOC no examinan a los alumnos, con lo que son necesarias técnicas de seguimiento que proporcionen una adecuada herramienta de análisis. Con su ayuda, pueden descubrirse bolsas de estudiantes con un bajo aprovechamiento del curso, que de otro modo quedarían ocultas, con el fin de adaptar el curso a sus necesidades. Hay materias, sin embargo, cuya calificación o análisis presenta serias dificultades. Piénsese por ejemplo en las asignaturas de programación, donde el procedimiento de examen habitual consiste en desafiar a los estudiantes con un conjunto de problemas a resolver. Las soluciones de los estudiantes que contemplan uno o más archivos de código de programación pueden ser subidos a la plataforma en los cursos en línea, donde habrán de ser corregidos por el docente a cargo de la asignatura. Esta tarea conlleva una gran cantidad de tiempo y serias dificultades para ser siempre del mismo modo objetivo. El problema se agrava si la evaluación no depende únicamente del acierto en las salidas de los programas ante un conjunto de ejemplos de entrada, sino también de la estructura de la solución (tipos de datos utilizados, flujo de control, eficiencia) o la calidad de la documentación. Además los estudiantes deben seguir para el desarrollo de los programas un proceso evolutivo en el que las soluciones propuestas van madurando y pasan por diversos estados hasta quedar finalmente establecidas como completas y acabadas, preparadas para ser enviadas. Estos estadios intermedios de las soluciones pueden también constituir una buena fuente de información para el docente, respecto a las necesidades concretas de cada estudiante, o para la planificación de las convenientes estrategias educativas. En el contexto de los cursos masivos de los lenguajes de programación se hacen por tanto necesarias metodologías para proveer un sistema de calificación efectivo. Una de las técnicas habituales usada comúnmente para evaluar la calidad de los programas es la utilización de las métricas de software. Hemos comprobado que con una adecuada selección de métricas es posible por un lado modelar el conocimiento de la materia y predecir las notas, y por otro, que nos ha parecido finalmente más adecuado, predecir la tasa de aprobados. Según nuestra metodología docente la nota final de cada alumno se obtiene de la corrección de exámenes teóricos y prácticos realizados al finalizar cada parte de la materia del curso. No interviene por tanto en la calificación final la corrección de los ejercicios sobre los que se realiza el estudio, ni las puntuaciones que se derivan de las métricas. Se entiende que con los resultados obtenidos de las métricas adecuadas podemos modelar el conocimiento que un estudiante tiene de la materia. Se supone también que la nota final alcanzada por el alumno tenga una fuerte correlación con su grado de conocimiento de la materia. Así pues el modelo de predicción de las notas conseguido debería estar en consonancia con los resultados finales, tal como así ha sido. Dado que este error existe, pues no representan lo mismo el grado de conocimiento de la materia que la nota final obtenida de la realización de unos exámenes, nos ha parecido más interesante aprovechar la información del modelo no tanto para sustituir a los exámenes sino para informar al equipo docente de la evolución del grupo de alumnos. Dicha evolución se resume fácilmente mediante el cálculo o predicción de la tasa de aprobados, objetivo de la investigación desarrollada en el año 2015. La información obtenida de la aplicación de diversas métricas a los distintos ejercicios entregados por los alumnos y que tienen que ver con distintas materias se ha caracterizado mediante variables difusas. Mediante técnicas de Bootstrap se ha modelado el conocimiento impreciso que representan estas colecciones de datos sobre los conceptos que las métricas tratan de medir. Así pues la entrada de nuestro modelo cuenta con datos imprecisos. Se ha hecho uso del algoritmo NMIC para tratar de aprovechar la información global contenida en los datos imprecisos a la hora de obtener el modelo de notas, y hemos conseguido resultados mejores que los que proporcionan técnicas de modelado asentadas científicamente, tales como las redes neuronales, los árboles de regresión, las máquinas de soporte vectorial o los Random Forest. Se ha extendido el cálculo de la medida de la información observada de Fisher para poder adaptarlo al tratamiento de la información imprecisa y se ha aplicado esta nueva metodología para evaluar la relevancia de una serie de características, en nuestro caso representadas por métricas. Se han seguido dos itinerarios para efectuar la estimación de la tasa de aprobados. El camino “indirecto”, a través del cálculo intermedio de las notas de los alumnos, y el método “directo” que trata de predecir la tasa de forma directa. Ambas opciones han sido estudiadas y comparadas. En el método indirecto y para predecir las notas de cada estudiante, hemos hecho uso, tal como se ha comentado, del algoritmo NMIC. Una vez obtenidas las notas, la tasa de aprobados se calcula comparando cada predicción con la nota de corte. En el método directo se ha inferido un modelo que pronostica esta tasa directamente, basándose en la opinión conjunta de una serie de predictores que trabajan cada uno sobre la base del estudio de una única característica. Se han planteado dos cuestiones (a) si las predicciones de los planteamientos directo e indirecto son las mismas, y (b) si las características más relevantes son las mismas para cada caso. Se ha planteado una experimentación con datos obtenidos de un grupo de alumnos real con la que se ha concluido negativamente a ambas preguntas. Los resultados obtenidos de nuestra experimentación nos dicen que la estimación de la tasa de aprobados y sobre todo, de sus variaciones, es más ajustada si se utiliza el método directo. También nos dicen que las métricas adecuadas a cada enfoque son distintas, siendo igualmente el método directo el que está asociado a un conjunto de métricas más coherente.