The Lexical Novelty as lexical richness measure in a contemporary oral corpus

the PRESEEA-Santander corpus

Authors

DOI:

https://doi.org/10.4151/S0718-09342025011701076

Abstract

The most generalized quantitative studies of the lexicon are, among others, the basic lexicon, the available lexicon and those that measure lexical richness (Ávila Muñoz 2014). The present study is located in this last direction. Traditionally, the formula used to obtain the average richness of each text is TTR (Type Tokens Ratio), consisting of dividing the number of different words by the total number of words (Capsada and Torruella 2017). This formula is valid when comparing corpora of the same size, but it is not reliable when comparing texts of different dimensions. Along with density, other indices to measure lexical richness -such as diversity (Baayen 2001), information (Shannon and Weaver 1963) or what we call peculiarity (Baayen 2001, 2008)- are not exempt from problems either. In this article, the novelty of frequency (N) is proposed as a new index of lexical richness, and it is applied to the sociolinguistic corpus PRESEEA-Santander in two directions: the grammatical category and the sociolinguistic parameters (sex, age and educational level). According to the analyses, there is a notable difference in lexical novelty depending on the grammatical category and little in terms of sociolinguistic criteria, probably to guarantee human communication. The methodology from which the lexical statistics is carried out uses the R package of ggplot and psych

Author Biography

Hiroto Ueda, Universidad de Tokio (Japón)

Miembro correspondiente de la Real Academia Española por Japón desde 2016.

Nacido en 1951 en Japón, Hiroto Ueda es doctor en Filología Española por la Universidad de Alcalá (1995) y profesor de la Universidad de Tokio, en los departamentos de Lengua Española y Ciencias de Lenguaje e Información.

Sus campos de investigación son la historia de las grafías españolas, con atención preferente al castellano medieval; la variación léxica del español moderno en sus aspectos geográficos, en 20 países hispanohablantes —participa en el proyecto VARILEX—; cuestiones de gramática descriptiva del español moderno; fonética comparativa del español y del japonés con aplicaciones didácticas; la utilización de medios informáticos en la enseñanza del español; la estadística lingüística con últimos desarrollos de métodos probabilísticos y análisis multivariantes, y el desarrollo de procesamientos informáticos de datos textuales.

Entre sus actividades de investigación filológica destaca la historia de la letra española eñe, en sus orígenes, desarrollos en castellano medieval y expansión posterior en lenguas americanas y asiáticas, así como la elaboración de programas informáticos de tratamientos digitales de textos, audios, vídeos y mapas. Entre sus últimas creaciones en este sentido se encuentran dos sitios en web con programas en PHP para análisis general de datos lingüísticos y numéricos, donde se encuentran los datos ofrecidos por el Proyecto CODEA (Corpus de Documentos Españoles Anteriores a 1700), dirigido por Pedro Sánchez-Prieto Borja (Universidad de Alcalá); CODCAR (Corpus de Documentos de Cancillería Real), dirigido por Nieves Sánchez González de Herrero (Universidad de Salamanca), y CORHEN (Corpus Histórico del Español Norteño), dirigido por María Jesús Torrens Álvarez (CSIC).

Autor de numerosas publicaciones, destacan entre ellas Puerta al español. Nuevo diccionario español-japonés (con Carlos Rubio), 2006; Claves del español para hablantes de japonés (con Antonio Ruiz Tinoco), 2008; Supeingo bunpo handobukku (Manual de gramática española), 2011, y Producción y evaluación de los materiales audiovisuales para ELE, 2013.

Published

2025-01-21

How to Cite

Martínez-Martínez, I., & Ueda, H. (2025). The Lexical Novelty as lexical richness measure in a contemporary oral corpus: the PRESEEA-Santander corpus. Revista Signos. Estudios De Lingüística, 58(117). https://doi.org/10.4151/S0718-09342025011701076