Legibilidad del texto, métricas de complejidad y la importancia de las palabras

  1. Martínez Santiago, Fernando
  2. Díaz Galiano, Manuel Carlos
  3. López-Anguita, Rocío
  4. Montejo Ráez, Arturo
Revue:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Année de publication: 2018

Número: 61

Pages: 101-108

Type: Article

D'autres publications dans: Procesamiento del lenguaje natural

Résumé

This article describes our study on the identification of the recommended age for readers in texts written for children. They have been evaluated over 12 complexity metrics proposed by different authors. By using these metrics as features, we have trained several automatic classifiers and cross-validated their performances to detect recommended reader level. The results have been compared with the classification performance obtained from other document models, like word embeddings and TF.IDF vectors. Our conclusions are that the most relevant facet to identify the recommended reader age is not on lexical or syntactical complexities, but strongly related with the vocabulary involved.

Références bibliographiques

  • Alliende González, F. 1994. La legibilidad de los textos. Santiago de Chile: Andrés Bello, 24.
  • Anula, A. 2008. Lecturas adaptadas a la enseñanza del español como l2: variables lingüísticas para la determinación del nivel de legibilidad. La evaluación en el aprendizaje y la enseñanza del español como LE L, 2:162–170.
  • Blanco Pérez, A. y U. Gutiérrez Couto. 2002. Legibilidad de las páginas web sobre salud dirigidas a pacientes y lectores de la población general. Revista española de salud pública, 76(4):321–331.
  • Cain, K., J. Oakhill, y P. Bryant. 2004. Children’s reading comprehension ability: Concurrent prediction by working memory, verbal ability, and component skills. Journal of educational psychology, 96(1):31.
  • Contreras, A., R. Garcia-Alonso, M. Echenique, y F. Daye-Contreras. 1999. The sol Legibilidad del texto, métricas de complejidad y la importancia de las palabras 107 formulas for converting smog readability scores between health education materials written in spanish, english, and french. Journal of health communication, 4(1):21– 29.
  • De Granada Barrio-Cantalejo, D. S., P. Simón-Lorda, M. Melguizo, I. Escalona, M. Marijuán, P. Hernándo, y others. 2008. Validación de la escala inflesz para evaluar la legibilidad de los textos dirigidos a pacientes.
  • Flesch, R. 1948. A new readability yardstick. Journal of applied psychology, 32(3):221. García López, J. 2001. Legibilidad de los folletos informativos. Pharmaceutical Care España, 3(1):49–56.
  • Larson, J. y J. Marsh. 2014. Making literacy real: Theories and practices for learning and teaching. Sage.
  • Mc Laughlin, G. H. 1969. Smog gradinga new readability formula. Journal of reading, 12(8):639–646.
  • Mikolov, T., I. Sutskever, K. Chen, G. S. Corrado, y J. Dean. 2013. Distributed representations of words and phrases and their compositionality. En Advances in neural information processing systems, páginas 3111–3119.
  • Montejo-Ráez, A. y M. C. Díaz-Galiano. 2016. Participación de sinai en tass 2016. En TASS@ SEPLN, páginas 41–45.
  • Muñoz, M. 2006. Legibilidad y variabilidad de los textos. Boletín de Investigación Educacional, Pontificia Universidad Católica de Chile, 21, 2:13–26.
  • Padró, L. y E. Stanilovsky. 2012. Freeling 3.0: Towards wider multilinguality. En LREC2012.
  • Pedregosa, F., G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, y others. 2011. Scikit-learn: Machine learning in python. Journal of machine learning research, 12(Oct):2825– 2830.
  • Ramírez-Puerta, M., R. FernándezFernández, J. Frías-Pareja, M. YusteOssorio, S. Narbona-Galdó, y L. PeñasMaldonado. 2013. Análisis de legibilidad de consentimientos informados en cuidados intensivos. Medicina Intensiva, 37(8):503–509.
  • Rehurek, R. y P. Sojka. 2011. Gensim– python framework for vector space modelling. NLP Centre, Faculty of Informatics, Masaryk University, Brno, Czech Republic, 3(2).
  • Rello, L., R. Baeza-Yates, S. Bott, y H. Saggion. 2013. Simplify or help?: text simplification strategies for people with dyslexia. En Proceedings of the 10th International Cross-Disciplinary Conference on Web Accessibility, página 15. ACM. Ripoll, J. C. 2015. Font legibility in first year primary students/legibilidad de distintos tipos de letra en alumnos de primero de primaria. Infancia y Aprendizaje, 38(3):600–616.
  • Rodríguez, T. 1980. Determinación de la comprensibilidad de materiales de lectura por medio de variables lingüísticas. Lectura y vida, 1(1):29–32.
  • Saggion, H., S. Stajner, S. Bott, S. Mille, ˇ L. Rello, y B. Drndarevic. 2015. Making it simplext: Implementation and evaluation of a text simplification system for spanish. ACM Transactions on Accessible Computing (TACCESS), 6(4):14.
  • Salton, G., A. Wong, y C.-S. Yang. 1975. A vector space model for automatic indexing. Communications of the ACM, 18(11):613–620.
  • Senter, R. y E. A. Smith. 1967. Automated readability index. Informe técnico, CINCINNATI UNIV OH. Spache, G. 1953. A new readability formula for primary-grade reading materials. The Elementary School Journal, 53(7):410–413.
  • Spaulding, S. 1956. A spanish readability formula. The Modern Language Journal, 40(8):433–441.
  • Stahl, S. A. 2003. Vocabulary and readability: How knowing word meanings affects comprehension. Topics in Language Disorders, 23(3):241–247.