Uncategorized

Las 5 V del Big Data

Una de las claves para entender cual es la definición del Big Data, qué es y para qué sirve, pasa por entender las 5V. La aplicación del Big Data es prácticamente infinita en un mundo como el de hoy, en el que las organizaciones acumulan enormes cantidades de información. Tendencias tales como el Internet De Las Cosas, la aplicación del Big Data al sector inmobiliario, o incluso al terreno del futbol, nos permiten ver que, dentro de poco, este tipo de ténicas serán ubicuas en prácticamente cualquier terreno.

Cuando empezamos un proyecto de Big Data, no hay, al menos todavía, un manual que seguir, unos pasos que dar, en el sentido de que cada proyecto tiene unas necesidades particulares, y requiere soluciones personalizadas. Sin embargo, esto mismo suele marear a aquellas personas, técnicos o empresas, que quieren aproximarse a este mundo del tratamiento de la información, al menos, entendiendo las bases de su funcionamiento – y un «depende» no suele ser de mucha ayuda en estas ocasiones.

Es por esto que creamos estructuras para que aquellas personas que se inician en esta disciplina, desde cualquier perspectiva, tengan un punto de apoyo y una referencia para entender cómo abordar un proyecto de Big Data – y luego, más adelante, descubrirán que estas estructuras se quedan pequeñas para abordar la enorme complejidad que puede llegar a tener un proyecto de este tipo.

Es por esto que dicha complejidad suele resumirse en tres pasos:

  • Unificar todos los orígenes de datos en un solo formato tratable (limpiando, homogeneizando la información, llenando los huecos faltantes, etc)
  • Realizar operaciones de tratamiento de los datos, apoyándose, cuando es necesario, con técnicas de inteligencia artificial
  • Presentar los resultados de una forma gráfica, mediante informes, analíticas, o de cualquier otra forma

De la misma forma, para empezar a entender en qué casos es necesario comenzar un proyecto de Big Data, y cómo tratar los datos involucrados en el proceso, solemos hablar de 5 V’s, que es otra herramienta, otra estructura, para entender, de forma mucho más fácil, las necesidades de este tipo de proyectos.

Realmente, a un nivel avanzado, hay muchas más que estas 5 V que se suelen utilizar, pero trabajamos con estas cinco primeras como un modo de simplificar y hacer comprensible para el público general, las complejidades de este tipo de proyectos.

VOLUMEN

El principal problema en un proyecto de BIG data es precisamente eso, la gran cantidad de datos que existen en el conjunto inicial con el que se quiere trabajar. Tal volumen puede hacer que ese conjunto no sea tratable por medios tradicionales de forma eficiente, excediendo a las capacidades humanas y técnicas que un equipo puede llegar a tener.

VELOCIDAD

La velocidad es otro de los parámetros importantes para decidir cómo procesar los datos involucrados en un proyecto. Hay varias formas de entender cómo la velocidad afecta en este caso.

Puede entenderse como la velocidad a la que nuevos datos van entrando al sistema, o puede entenderse como la velocidad con la que el sistema debe ser capaz de llegar a conclusiones de valor.

VARIEDAD

La variedad es el primer gran problema al que se enfrenta cualquier proyecto de Big Data. En un proyecto podemos contar con datos como bases de datos, archivos de excel, archivos PDF, correos electrónicos, e incluso documentos en papel que deben ser escaneados y procesados (mediante técnicas de reconocimiento de caracteres)

La variedad suele ser el primer problema con el que hay que enfrentarse, habrá que realizar un proceso mediante el cual deberemos homogeneizar la información a un formato o a un conjunto de formatos a través de los cuales podamos comparar y cruzar la información.

VERACIDAD

En una gran cantidad de ocasiones, el conjunto de datos con el que trabajos es incompleto, no uniforme, o contiene datos que son incorrectos, o falsos. Asegurar que los datos sean veraces en múltiples sentidos es imprescindible para que los resultados obtenidos sean fiables.

VALOR

No todos los datos tienen el mismo valor. En ocasiones, parte de los datos que componen un conjunto pueden ralentizar el sistema, y no aportan valor a la solución que se quiere encontrar. Es por esto que no cualquier dato vale, y en muchas ocasiones tendremos que realizar un filtrado previo.

Analizando todas estas variables es como puedes saber no solo si tu organización necesita realizar un proyecto de big data, sino también en qué situación te encuentras, y cuáles pueden ser tus primeros pasos en el momento de realizar una primera aproximación al proceso de ordenar la información, procesarla, y obtener conclusiones de valor a partir de ella.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *