Big data es tan grande como imagines y tan pequeño como la utilidad que le puedas dar.
Pensaba que me libraría de escribir sobre el asunto big data, pero al final las tendencias parece que mandan y toca tratar el asunto. Soy de los que piensan que el big data siempre ha estado ahí. Los datos nos rodean y nos han rodeado siempre, sólo que con el tiempo hemos aprendido a leerlos y capturarlos. Además, la tecnología nos permite almacenarlos de una forma relativamente estandarizada, algo que indudablemente facilita y acelera el tratamiento de la gran cantidad de datos que tenemos.
El reto está en saber «mezclar» los datos a los que tenemos acceso de forma que podamos obtener conclusiones. Puede que sea parecido a lo que hacen los cocineros. Un cocinero tiene acceso a una infinidad de ingredientes, pero no los usa todos al mismo tiempo(menos mal) Sólo escoge aquellos que cree que le pueden ser útiles, algo que ya descarta una gran número de ingredientes, después elige aquellos que influyen sobre otros alimentos, bien porque potencian un sabor, bien porque mitigan la intensidad de otro alimento o cualquier otra influencia de unos alimentos sobre otros. Tras este ejercicio de selección procede a la mezcla y cocinado y obtiene un producto final, suma de los ingredientes pero diferente a la mera unión entre ellos.
Con big data ocurre igual, tenemos acceso a todo o casi todo, pero conviene pensar en grande para poder actuar en pequeño.
El primer paso se puede hacer por «intuición», hay que seleccionar aquel conjunto de datos que consideramos que tiene influencia sobre nuestro objetó de estudio.
En segundo lugar conviene ver cuanto influyen unos datos sobre otros, la ya famosa correlación, que, aunque no indica causalidad si nos dice como se comporta un dato en relación a otro y con que fuerza. Es un buen primer paso, dos métricas que no tengan ningún comportamiento relacionado será poco probable que tengan alguna relación de dependencia.
Pero esto no es todo, en tercer lugar tenemos que asegurarnos de la dependencia de unos y otros datos.. «¿Cuándo hace mal tiempo tengo menos visitas a la tienda?» En otras palabras, podemos tener como cierto que el tiempo y las visitas a nuestra tienda tienen una cierta relación lineal, pero ¿las visitas dependen del tiempo que haga? ¿En qué medida? El primer acercamiento te lo va a dar otra amiga, la covarianza, que es la que tiene todos los detalles para que conozcamos la dependencia entre métricas.
.
De esta forma, paso a paso podrás construirte un modelo que te lleve a elaborar tu producto final, a establecer si tu hipótesis es cierta o no…
Pero bueno, sigamos,ya has elegido tus datos y has comprobado que están relacionados, pero obviamente, podemos afinar un poco más. Verás, se supone que queremos saber qué influye sobre la consecución de nuestros objetivos y cuanto. Es decir, sin provocamos un cambio en la variable x, ¿Cuánto va a afectar ese cambio al objetivo? ¿Merece la pena el esfuerzo para el resultado que vamos a obtener?
Para conseguir esta información tendremos que echar mano del «análisis de regresión« del que obtendremos una ecuación de lo más valioso. En un lado de la ecuación tendremos el objetivo a conseguir y al otro lado el conjunto de variables que están relacionadas con el objetivo y en que medida influyen en él. Es decir, si merece la pena influir sobre cierta variable para conseguir el objetivo…
En resumen, tenemos acceso a muchos datos, pero realmente sólo unos pocos son los elegidos, sólo unos pocos son útiles para nuestros fines, de ahí que diga que
big data es tan grande como quieras que sea pero tan pequeño como la utilidad que le puedas dar