- Claudio Aros
Big Data, Small Data, Dirty Data
Manchas solares, misiles guiados y analítica de datos.

Big Data es una palabra que en estos momentos está de moda. Grandes empresas la utilizan, y las aseguradoras también se han lanzado a explorar la novedad del momento, pero, ¿es real toda la expectativa generada? ¿Dónde nos puede llevar? ¿Nos dirigimos a un mundo donde el gran hermano, ya sea Amazon o Google, conozca todos nuestros movimientos?
Definir Big Data como el análisis masivo de datos no supone ninguna novedad para las empresas que llevan años procesando datos. La diferencia que existe con respecto al pasado es que la inclusión de tecnologías más avanzadas ha hecho que este tratamiento se acelere hasta hacerlo en tiempo real, no hay que esperar un trimestre para obtener un informe de venta, el informe de venta se obtiene en cada transacción.
¿Qué busca el Big Data? Conocimiento, una interpretación sabia de información que, a su vez se compone de datos, los ladrillos del conocimiento. Esto tampoco es una novedad, detrás se encierra el concepto Business Intelligence (BI), también conocida como inteligencia empresarial. Esta palabra también está de moda últimamente porque se asocia al Big Data.
Como inteligencia empresarial podemos entender un conjunto de actividades encaminadas a generar conocimiento sobre todo lo que influye en la empresa. Quizá el cambio que se produce es que el Business Intelligence corresponde a datos cerrados, datos propios de la empresa sobre los que se precisa un buen nivel de esfuerzo. Se requiere tiempo para procesar datos, hay que definirlos bien y por último la cantidad de datos no deja de ser pequeña, son Small Data. Imaginaremos una aseguradora pequeña tratando medio millón de clientes con todas sus transacciones, esto son pequeños datos.
Por el contrario, el Big Data ira a buscar datos tanto de dentro de la empresa como de fuera de la empresa, imaginemos los comentarios de clientes en sus perfiles de Facebook. El Big Data trabaja a una enorme velocidad de generación de datos en movimiento, muy variados y que provienen de múltiples fuentes en todo tipo de formatos a un enorme volumen, una gigantesca cantidad de datos.
Origen del Invento
El origen de esta necesidad de tratar grandes bases de datos proviene de la astrofísica, que tenía que procesar una enorme cantidad de datos recogida por los satélites. Pronto los científicos se vieron inundados por datos interestelares y tuvieron que desarrollar alguna manera de procesarlos y darles sentido. También en la investigación del genoma encontraron problemas parecidos, una enorme cantidad de datos a procesar. Pero, por lo visto, donde ha brillado más este análisis es en operaciones militares; imaginemos los datos a procesar por misiles guiados, o de cualquier satélite espía. Pero pronto estos análisis saltaron al mundo civil y empresarial. Para hacernos una idea del cambio sobre el procesamiento diremos que el estudio del genoma humano almaceno y trato 3.200 millones de pares de bases de ADN. Se tardaron 10 años en hacerlo, hoy se tarda un solo día en secuenciar el genoma
Trampas del Big Data
El tema es bastante complejo y se precisa un equipo multidisciplinar para echar adelante un proyecto de esta envergadura, y no siempre los resultados son los esperados. Uno de los errores más frecuentes se basa en el análisis estadístico de los datos. Una aplicación indiscriminada y mecánica de los modelos estadísticos llevan a la antigua trampa de correlaciones espurias. Esto es que encuentran conexión en datos que no son causa y efecto. Esto se estudió hace ya muchos años con la correlación entre la actividad de las manchas solares y el ciclo alcista y bajista de la bolsa de valores. ¿Existe correlación matemática y la estadística? ¡Sí! ¿Las manchas del sol provocan que la bolsa suba o baje? ¡Para nada! Pues algo parecido acaba ocurriendo en los procesos de Big Data, existen correlaciones pero no hay causalidad.
¿Qué busca el Big Data? Conocimiento, una interpretación que, a su vez se compone de datos
El segundo error es el llamado Dirty Data, que es la suciedad que existe en los datos. En 2007 la consultora Gartner alerto que el 25% de los datos críticos de negocio de las 1.000 empresas de la lista Forbes eran incorrectos. Si estas empresas prestigiosas no tienen los datos correctos… ¿Cómo estarán nuestros datos?
Seamos Positivos
Pero seamos positivos en todo este asunto, el Big Data no es el futuro, es el presente. El hecho de navegar por Google ya está generando y procesando una enorme cantidad de datos que son procesados a tiempo real y, para bien o para mal, son utilizados. Y, en el futuro, habrá un aumento considerable de procesamiento y aparecerán nuevas formas de uso. Empresas como Amazon, Uber o Telefónica ya hacen uso de esta tecnología para conocer mejor al cliente, analizar sus pasos y hacerles una oferta precisa. La utilidad que se abre para el marketing es enorme e inimaginable. Claro que todo esto ofrece también problemas, sobre todo en temas de privacidad, habrá que vigilar que no se haga un uso indebido. Los ciudadanos ya lo han visto venir y a veces dan datos falsos, lo que empeora el Dirty Data. ¿Quién no ha puesto un email incorrecto a propósito para que no envíen publicidad? Pero todos los vientos dirigen a un procesamiento de datos masivo. Piense por un instante en su propio negocio, ¿en que se sustenta? En datos, en información y conocimiento del cliente. Y es posible que nosotros, como mediadores, en estos momentos estemos lejos de un procesamiento efectivo de datos. Desde estas líneas no aconsejamos que el mediador haga un tratamiento de Big Data, pero si haga un Small Data, investigue, procese, analice y extraiga el conocimiento de los datos de sus propios clientes. Desde el Centro de Estudios tenemos experiencias en la analítica de datos y pronto ofreceremos novedades al respecto, ¡estén atentos!