CORPES

La actualización del CORPES ha superado los 410 millones de formas

29 de Abril de 2024

La nueva versión del CORPES, la 1.1, cuenta con más de 380000 documentos que suman algo más de 410 millones de formas ortográficas, procedentes de textos escritos y de transcripciones orales. Con respecto a la versión anterior, publicada en mayo de 2023, supone un incremento de más de 15 millones de formas; más de cinco millones de ellas proceden del parámetro oral y algunos archivos ofrecen el sonido alineado correspondiente a la transcripción; en otros es posible la descarga del archivo de audio, además de la visualización del vídeo de acuerdo con la procedencia del texto fuente.

Por lo que respecta al bloque de Ficción (novelas, guiones de cine, relatos, obras de teatro), las formas del CORPES sobrepasan los 108 millones, mientras que las contenidas en textos de libros de no ficción y en publicaciones periódicas (ciencias sociales, salud, política, artes, tecnología...) sobrepasan los 296 millones. Los textos procedentes de libros suponen más de 190 millones de formas; las publicaciones periódicas están representadas con unos 205 millones. Algo más de nueve millones más provienen de blogs, entrevistas digitales, redes sociales y miscelánea.

Cronológicamente se incorporan unas 150 000 formas ya correspondientes a 2024; más de cinco millones son de 2023, unos once millones de 2022 y más de catorce para 2021; aumenta también el número de textos producidos entre 2016-2020, con algo más de 75 millones de formas en esta versión. Por lustros, el mayor peso recae en el segmento 2006-2010, con más de 108 millones de formas; más de 102 millones corresponden a formas producidas entre 2001 y 2005; y de 2011 a 2015 se superan los 87 millones de formas. El equilibro previsto entre España y América (30 %-70 %) se mantiene: las formas producidas en textos clasificados como España suponen algo más del 30 % y los de América alcanzan los 267 millones de formas.

En esta versión se publica, por primera vez, el diccionario de frecuencias léxicas basado en el CORPES.

CONTENIDO RELACIONADO

cerrar

Buscador general de la RAE