
La importancia de Big Data en Bowpi
Por: Javier Cordón
Ingeniero de Datos orientado en desarrollos de pipelines E2ES cloud y serverless.
Es importante resaltar que los datos, por definición, son información recolectada que permite analizar y conocer información concreta sobre hechos[1]. Cuando se utiliza el termino de digitalización, es necesario conocer el término bit, este hace referencia al almacenamiento de datos como dígitos binarios. El término bit, fue sugerido por primera vez en 1948 por J. W. Tuckey[2] (la misma persona que creó junto a J.W. Cooley, el algoritmo de la transformada rápida de Fourier, FFT. Este algoritmo es imprescindible para aplicaciones de reconocimiento de voz y compresión de documentos digitales, entre otros)
El inicio del nuevo mileño acuño el término “información digital o datos” este empezó a ser más escuchado después de numerosas noticias relacionadas al “Y2K” (Year 2000 problem). El Y2K es el año que marca el cambio al almacenaje de formatos en informática. Además, este año marca el cambio en el sistema, en vez de utilizar 4 dígitos se utilizan únicamente los últimos 2 dígitos. Estos sistemas pasarían de 99 a 00 y muchos de ellos tendrían serias consecuencias con el cambio de milenio; por ejemplo: afectó desde tarifas en taxis[3], hasta plantas nucleares[4].
El costo de almacenamiento de datos fue uno de los principales motivos para utilizar este formato. En los años 80´s, la unidad de almacenamiento externa de IBM 3380 con capacidad de 2.52 GB, tenía un costo de USD 81,000[5]; equivalente hoy en día aproximadamente a USD 32 mil por 1 GB. Cualquier gurú en informática optaría por optimizar el almacenamiento de datos para reducir costos de estos.
Esta es una de las causas por las que nace el término “Big Data”. Este término surge a principios del 2005, en esta época el costo de almacenaje de información era relativamente accesible y fue utilizado por más industrias en un tiempo significativo. Esto nos lleva a preguntarnos, ¿Para qué almacenar tanta información y cómo realizarlo?
Desde mi punto de vista esta pregunta no posee una sola respuesta, podrían ser varias; la mayoría busca generar valor como un retorno de inversión. Almacenar información puede tener un costo elevado, de ser así, este será un costo fijo e incremental si este no cumple una función estratégica. Para poder justificar esta inversión, debe generar un valor. Por ejemplo: se podría almacenar para brindar una ventaja competitiva en el mercado y poder ofrecer a los clientes un historial de transacciones, interacciones, conversaciones, fotografías etc. Hoy en día, estas son funciones más esperables que deseables, esta falta puede generar insatisfacción en el cliente. En este caso la información requiere muy poco o ningún procesamiento.
Otro método para recuperar la inversión podría ser lucrar con la información. Compañías como: GAFA, se dedican a vender espacios de publicidad dirigido a un perfil específico por el anunciante.
De esta manera no venden la información del perfil del cliente, pero si el espacio para poder colocar anuncios que posiblemente sean de su interés y contribuyan con el objetivo del anunciante.
En BOWPI nos sentimos orgullosos de contribuir con nuestros clientes de distintas maneras para que estos puedan generar valor rápidamente y obtener un retorno de inversión. Tenemos un ecosistema de servicios end-to-end (E2ES), frameworks, esto nos permite adaptar rápidamente las necesidades del cliente para su despliegue en producción.
Todo comienza con la generación de datos, cada producto es distinto y estos pueden tener múltiples maneras de ser generados. Estos datos deben ser almacenados de manera organizada y con las mejores prácticas; por ello hacemos uso de las mejores bases de datos, costo-efectivas, que puedan escalar rápidamente sin necesidad de nuevos desarrollos. No se trata únicamente de guardarlo como materia prima, sino normalizar la información. Esta debe ser capaz de mantener el estado actual en tiempo real y también mantener un historial organizado, fácil de consultar. Para poder brindar este historial estructurado, normalizado y tener un fácil acceso para consultar las reglas y conceptos de negocio, construimos un Data Warehouse.
El Data Warehouse es un repositorio central indispensable para el análisis de datos. Estos llevan a la toma de decisiones necesarias para la inteligencia de negocios. Otra de sus principales y modernas funciones es facilitar la información al equipo de Científicos de Datos quienes construyen modelos que permiten anticipar tendencias o resultados de reglas de negocio probabilísticamente. Este producto del Data Warehouse se construyen dashboards que permiten visualizar el estado completo de la información, actualizado en tiempo real, cada vez que ingresa nueva información al mismo.
El poder ser impulsado por datos es uno de los aspectos más cruciales en inteligencia de negocios y las estrategias de mercadeo modernas; por otro lado, es importante que las personas involucradas en estas áreas estén familiarizadas con la data y como analizarla con herramientas accesibles. En BOWPI facilitamos estas construcciones y herramientas para tener despliegues rápidos. Hemos puesto en producción aplicaciones y procesos completos desde la adquisición de datos, hasta dashboards de visualización para inteligencia de negocios y modelos probabilísticos para la toma de decisiones. Nuestra misión es mantenernos actualizados y continuar en la búsqueda de nuevos desarrollos, implementando las mejores prácticas, nuevos productos y tendencias.
[1] Real Academia Española. (20 de 11 de 2020). Diccionario de la lengua española, 23.ª ed. Obtenido de Real Academia Española: https://dle.rae.es/dato
[2] Shannon, C. E. (1948). A mathematical theory of communication. The Bell System Technical Journal, vol. 27, no. 3, pp. 379–423.
[3] CNN. (6 de 1 de 1999). Y2K bug rears its ugly head. Obtenido de CNN Money: https://money.cnn.com/1999/01/12/technology/y2k_moneyline/
[4] CNN Edition. (3 de 1 de 2000). Obtenido de Computer problems hit three nuclear plants in Japan: https://edition.cnn.com/2000/TECH/computing/01/03/japan.nukes.y2k.idg/index.html
[5] IBM. (s.f.). IBM 3380 direct access storage device. Obtenido de IBM: https://www.ibm.com/ibm/history/exhibits/storage/storage_3380.html#:~:text=The%20IBM%203380%20was%20initially,ranged%20from%20%2497%2C650%20to%20%24142%2C200.