Centro Virtual Cervantes
Lengua

El neologismo big data es un anglicismo formado por sintagmación, compuesto por el adjetivo big ‘grande’ y el sustantivo de procedencia latina data ‘datos’ (plural del latín datum). El English Oxford Dictionary ya incluyó esta voz en su lemario en el año 2013 con la categoría de nombre y la definió como «computing (also with capital initials) data of a very large size, typically to the extent that its manipulation and management present significant logistical challenges; (also) the branch of computing involving such data». Por su parte, el Merriam Webster Dictionary, incorporó la voz big data en 2014.

Representación de una banda ondulante de código de programación informática.
Pixabay

Así pues, el significado de big data no se refiere tan solo a un gran volumen de datos sino también a su variedad o complejidad y a su velocidad de crecimiento (lo que se conoce como las tres V: volumen, variedad y velocidad), sino también a los procedimientos y aplicaciones informáticos que los tienen que gestionar.

A pesar de que se trata de un préstamo muy usado actualmente en español, el diccionario de la Real Academia Española aún no lo ha incluido en su lemario, tal como sí ha hecho con otros anglicismos como big bang, fair play, feedback, etc., por lo que no disponemos de su definición académica. Sin embargo, la Fundación del Español Urgente (Fundéu), que está asesorada por la RAE, en una entrada titulada «Macrodatos e inteligencia de datos, alternativas a big data» redactada en el año 2013, lo considera un concepto propio del sector de las tecnologías de la información y de la comunicación y lo define como el «conjunto de datos que, por su volumen y variedad y por la velocidad a la que necesitan ser procesados, supera las capacidades de los sistemas informáticos habituales». También el Gran diccionario de anglicismos de Félix Rodríguez, publicado en el año 2017, presenta una entrada referida al término big data.

Las primeras documentaciones de big data en inglés aparecen en la década de los ochenta, pero las referidas al significado que tiene el término actualmente no se hallan hasta la década de los noventa. En español esta palabra no está documentada hasta la segunda década del siglo actual, por este motivo, dado que la mayoría de corpus lingüísticos no cubren más allá del siglo xx, son pocos los que registran la voz y lo hacen con unas frecuencias muy bajas.

En el CORPES XXI la voz big data no se encuentra registrada hasta el año 2011, con una sola atestación, en Argentina:

  • Estamos en tiempos de Big Data, como se conoce al fenómeno que explica el crecimiento exponencial de la información [F. Jueguen, «Información para ser un fórmula uno». Lanacion.com. Buenos Aires, 23/10/2011]

De hecho, los primeros testimonios del término en español son mayoritariamente hispanoamericanos, sobre todo, según los datos que proporciona el corpus mencionado, de Costa Rica, México, Colombia y Estados Unidos, como es lógico, en temas de ciencias y tecnologías.

Curiosamente, el CORPES XXI registra antes los equivalentes patrimoniales datos masivos (en 2009) e inteligencia de datos (en 2009) que el anglicismo crudo big data (en 2011).

En la hemeroteca de La Vanguardia encontramos una primera documentación de big data en el suplemento de economía del 5 de diciembre del 2010 y en la del ABC, en un artículo de la sección de tecnología del 11 de mayo de 2011, en ambos casos, escritas en redonda y mayúscula las dos partes del término: Big Data. A partir de estos años va creciendo el número de artículos que utilizan este término, especialmente en los suplementos de economía y en las secciones de tecnologías de los medios de comunicación.

El Observatori de Neologia de la Universitat Pompeu Fabra no recoge el neologismo big data en un texto español hasta el año 2014:

  • Es el poder de los metadatos y el big data. [El País (España), 05/03/2014]
  • 10 maneras de mejorar nuestra calidad de vida usando big data. [El País (España), 03/05/2014]
  • Son los big data, una auténtica revolución que anuncia importantes cambios sociales y a la que el CCCB dedica una luminosa exposición —Big Bang Data— que no quiere ser una celebración pero tampoco pretende abrir la caja de los truenos. [La Vanguardia (España), 08/05/2014]
  • El Instituto Global McKinsey, el brazo de investigación en economía de la firma McKinsey & Co., pronostica que en 2018 Estados Unidos podría enfrentar un déficit de entre 140.000 y 190.000 personas «con capacidad de análisis profundo», y de al menos 1,5 millones de gerentes capacitados para usar el big data (como se denomina al sector que se ocupa de estos inmensos volúmenes de datos) a la hora de tomar decisiones. [El Tiempo (Colombia), 28/09/2014]

Actualmente, aunque el término se utiliza de forma mayoritaria en masculino singular, la flexión de género y de número es bastante aleatoria. Así se encuentran casos como «la big data», seguramente motivados por la terminación -a de data; no pocas veces hallamos el término con la –s de plural, «los big datas»; e incluso se puede registrar con la segunda parte del sintagma totalmente adaptada al español «los big datos», etc. Google registra «el big data» (2.280.000 resultados), «la big data» (157.000 resultados), «los big data» (35.600 resultados) y «las big data» (5.200 resultados) // «un big data» (43.300 resultados), «una big data» (4.620 resultados), «unos big data» (137 resultados) y «unas big data» (9 resultados) [consultado el 20/03/2019]. Por ello, es fácil localizar en un mismo escrito el nombre en singular y en plural o en masculino y en femenino. Por ejemplo, en un artículo titulado «Los retos de la digitalización y el Big Data», en su redactado encontramos: «en esta etapa en la que todo se rige por infinitos Big Datas…», «La gran pregunta es si el mundo está preparado para la digitalización y almacenamiento en la Big Data de las empresas, comunidades o incluso de países enteros…», «para que los equipos de trabajo compartan la información en una Big Data plegadas de documentos…» y «poder mantener una Big Data segura…» [consultado el 20/03/2019].

En cuanto a la utilización de mayúsculas o minúsculas en su escritura cabe decir que en español el uso de una u otra grafía también es bastante variable. Ya en inglés el OED especifica que se escribe en minúsculas pero que también se puede escribir en mayúsculas iniciales («also with capital initials»). En el Diccionario de la lengua española (2014), así como en el Diccionario panhispánico de dudas (2005), no aparece la palabra big data pero sí una voz de semejante estructura como big bang de la que prescriben su uso en minúscula y cursiva, a pesar de que en el DPD se especifica que «por tratarse de una antonomasia, suele escribirse con mayúscula inicial», y así se encuentra escrito la mayoría de veces.

En los ejemplos que encontramos en el corpus analizado, la palabra big data presenta una gran variabilidad gráfica, de modo que algunas veces tanto big como data se escriben con mayúscula inicial, en otras solo la primera palabra se escribe con mayúscula inicial y hay ocasiones en que no se emplea la mayúscula inicial. Además, esporádicamente se utiliza el guion entre las dos partes del sintagma big-data y a veces también el sintagma aparece entre comillas para resaltar que se trata de un extranjerismo. A este respecto, la ortografía de la Real Academia Española (2010) y la Fundéu recomiendan usar la cursiva para advertir que la palabra es una voz extranjera que no se ha adaptado al español.

El término big data ha sido exportado como anglicismo a un gran número de lenguas, que además presentan otras alternativas más genuinas. Entre las lenguas románicas: italiano (grandi dati), francés (données massives, données volumineuses, mégadonnées), catalán (dades massives), gallego (datos masivos), portugués (megadatos, metadatos, dados em massa).

Como alternativas al anglicismo, en español existen diversas soluciones como, por ejemplo: macrodatos, inteligencia de datos, datos masivos o datos a gran escala. La Fundación del Español Urgente (Fundéu) propone utilizar los dos primeros, porque

El término macrodatos es una alternativa válida pues aporta, como big, el significado de ‘grande’; es una solución breve y no tiene, como ocurriría con megadatos, un posible riesgo de confusión con el término mega, muy frecuente también en los mismos ámbitos.

En cuanto a inteligencia de datos —por analogía con inteligencia empresarial—, se trata de otra opción igualmente válida centrada en el concepto que subyace al mundo del big data, donde las ingentes cantidades de información que se manejan pueden generar «inteligencia» (de lo cuantitativo a lo cualitativo) en forma de nuevas estrategias, planteamientos y soluciones empresariales.

En definitiva, el término big data es un anglicismo neológico que, a pesar de disponer de equivalentes patrimoniales (macrodatos, datos masivos, inteligencia de datos y datos a gran escala) ha penetrado con fuerza en el español, por lo que se debería considerar su admisión como extranjerismo crudo (escrito en cursiva) y como voz masculina invariable en los diccionarios de uso general (el big data / los big data).

Joan Torruella
ICREA-Universitat Autònoma de Barcelona (España)

big data m.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *