Has escuchado la palabra Big Data, también llamado Datos Masivos o Macro Datos, es fácil pensar en que esto tiene que ver con grandes volúmenes de información, pero ¿Qué es grande?, En la actualidad no terminan por ponerse de acuerdo en cuanto a lo que es grande, algunos toman como referencia lo comentado por Field Cady en su libro “The Data Science Handbook”, refiriéndose al tamaño del Big Data, comenta; “it happens when it is no longer practical to store or process it all on a single computer”, que parafraseando queda algo así: El tamaño del Big data comienza cuando un ordenador ya no es suficiente para almacenar o procesar la información.
Después de leer esto me quede casi igual que en el comienzo, y digo que casi igual porque lo único que me ha quedado claro es que la información que se encuentra en tu empresa o en la mía, definitivamente no es “Big Data”. Y si el ingeniero de sistemas de tu empresa se refiere a ello como Big Data, mejor sugiérele que se cambie de profesión; bueno todo lo anterior no tiene sentido si trabajas en Google o Facebook.
Cinco años antes a la publicación del libro “The Data Science Handbook”, en un artículo de IBM del 2012 el Ingeniero Ricardo Barranco Fragoso comenta que el tamaño de la información debe de ser tal que ya no pueda ser procesada o analizada utilizando métodos tradicionales, y entonces el Big Data ya no sólo trata de infraestructura si no de tecnología, ya no solo hablamos de lugares de almacenamiento como lo haría el data Warehouse ahora hablamos de tecnologías no tradicionales que nos permitan procesar y gestionar esos volúmenes de información, tecnologías como: Hadoop, Map Reduce, Hbase y Cassandra, ZooKeeper, Mahout, Hive y Pig.
Después de lo anterior podemos entender que el Big Data es un conjunto de información tan grande que no se puede almacenar en una sola máquina sino en varias y que obligue a usar nuevas tecnologías para poder procesar y analizar la información de manera eficiente sin que los programas o aplicaciones se vuelvan locos o se atoren al hacerlo.
Aquí unos datos curiosos sobre lo que sí es grande:
Twitter genera 12 Terabytes de Tweets al día
Facebook almacena alrededor de 100 Petabytes de fotos y videos
Los smartphones generan alrededor de 2.5 Quintillones de Bytes diariamente
Para que ubiques lo anterior.
Gigabyte = 109 = 1,000,000,000
Terabyte = 1012 = 1,000,000,000,000
Petabyte = 1015 = 1,000,000,000,000,000
Exabyte = 1018 = 1,000,000,000,000,000,000
Quintillon = 1030 = 1,000,000,000,000,000,000,000,000,000,000
Algunos autores sugieren que el Big Data comienza a partir del Petabyte. Y ahora la pregunta es ¿en dónde se encuentra almacenada toda esa información?, según la CIA World Factbook hasta el 1 de enero del 2018 existían 903,230,619 servidores de internet en el mundo, en donde México se encuentra en el noveno puesto.
1.- | Estados Unidos | 505,000,000 |
2.- | Japón | 64,453,000 |
3.- | Brasil | 26,577,000 |
4.- | Italia | 25,662,000 |
5.- | China | 20,602,000 |
6.- | Alemania | 20,043,000 |
7.- | Francia | 17,266,000 |
8.- | Australia | 17,081,000 |
9.- | México | 16,233,000 |
10.- | Rusia | 14,865,000 |
Si la información es poder entonces el Big Data es un recurso de poder, limitado sólo por tu imaginación.
Escrito por @Jicastial