La Novedad léxica como medida de riqueza léxica en un corpus oral contemporáneo

el corpus PRESEEA-Santander

Autores/as

DOI:

https://doi.org/10.4151/S0718-09342025011701076

Resumen

Los estudios cuantitativos del léxico más generalizados son, entre otros, los léxicos básicos, los disponibles y los que miden la riqueza léxica (Ávila Muñoz 2014). En esta última dirección se ubica el presente estudio. Tradicionalmente, la fórmula empleada a partir de la cual se obtiene la riqueza media de cada texto es TTR (Type Tokens Ratio), consistente en dividir el número de vocablos diferentes entre el total de palabras (Capsada y Torruella 2017). Esta fórmula es válida cuando se comparan corpus de igual tamaño, pero no resulta fiable al cotejar textos de distinta dimensión. Junto a la densidad, otros índices para medir la riqueza léxica -como la diversidad (Baayen 2001), la información (Shannon y Weaver 1963) o lo que llamamos la peculiaridad (Baayen 2001, 2008)- tampoco están exentos de problemas. En este artículo se revisan tales conceptos y se propone la novedad de frecuencia (N) como un nuevo índice de riqueza léxica. Se ofrece una definición, la fórmula correspondiente y se aplica al corpus sociolingüístico PRESEEA-Santander en dos direcciones: la categoría gramatical y los parámetros sociolingüísticos (sexo, edad y nivel educativo). Se aprecia, a tenor de los análisis, una diferencia notable de novedad léxica en función de la categoría gramatical y escasa en lo que atañe a los criterios sociolingüísticos, probablemente como medio para garantizar la comunicación humana. La metodología a partir de la cual se lleva a cabo la estadística léxica emplea el paquete R de ggplot y psych.

Biografía del autor/a

Hiroto Ueda, https://lecture.ecc.u-tokyo.ac.jp/~cueda/

Miembro correspondiente de la Real Academia Española por Japón desde 2016.

Nacido en 1951 en Japón, Hiroto Ueda es doctor en Filología Española por la Universidad de Alcalá (1995) y profesor de la Universidad de Tokio, en los departamentos de Lengua Española y Ciencias de Lenguaje e Información.

Sus campos de investigación son la historia de las grafías españolas, con atención preferente al castellano medieval; la variación léxica del español moderno en sus aspectos geográficos, en 20 países hispanohablantes —participa en el proyecto VARILEX—; cuestiones de gramática descriptiva del español moderno; fonética comparativa del español y del japonés con aplicaciones didácticas; la utilización de medios informáticos en la enseñanza del español; la estadística lingüística con últimos desarrollos de métodos probabilísticos y análisis multivariantes, y el desarrollo de procesamientos informáticos de datos textuales.

Entre sus actividades de investigación filológica destaca la historia de la letra española eñe, en sus orígenes, desarrollos en castellano medieval y expansión posterior en lenguas americanas y asiáticas, así como la elaboración de programas informáticos de tratamientos digitales de textos, audios, vídeos y mapas. Entre sus últimas creaciones en este sentido se encuentran dos sitios en web con programas en PHP para análisis general de datos lingüísticos y numéricos, donde se encuentran los datos ofrecidos por el Proyecto CODEA (Corpus de Documentos Españoles Anteriores a 1700), dirigido por Pedro Sánchez-Prieto Borja (Universidad de Alcalá); CODCAR (Corpus de Documentos de Cancillería Real), dirigido por Nieves Sánchez González de Herrero (Universidad de Salamanca), y CORHEN (Corpus Histórico del Español Norteño), dirigido por María Jesús Torrens Álvarez (CSIC).

Autor de numerosas publicaciones, destacan entre ellas Puerta al español. Nuevo diccionario español-japonés (con Carlos Rubio), 2006; Claves del español para hablantes de japonés (con Antonio Ruiz Tinoco), 2008; Supeingo bunpo handobukku (Manual de gramática española), 2011, y Producción y evaluación de los materiales audiovisuales para ELE, 2013.

Descargas

Publicado

2025-01-21

Cómo citar

Martínez-Martínez, I., & Ueda, H. (2025). La Novedad léxica como medida de riqueza léxica en un corpus oral contemporáneo: el corpus PRESEEA-Santander. Revista Signos. Estudios De Lingüística, 58(117). https://doi.org/10.4151/S0718-09342025011701076