Me ha parecido muy oportuno el post publicado en Xataka Ciencia, en un momento en el que tanto se habla de BIG DATA como la herramienta que debe gobernar la investigación y el desarrollo del conocimiento. En este post Sergio Parra nos recuerda una máxima que un investigador no debe olvidar: correlación no implica causalidad. Dicho en otras palabras, que dos hechos sucedan al mismo tiempo no significa que necesariamente uno sea causa del otro. Olvidar esta máxima, conocida como CINAC (Correlation is not a cause) nos puede conducir a conclusiones erróneas de consecuencias a menudo dramáticas.
Existen muchos ejemplos de este fenómeno. En Xataka mencionan el polémico asunto de la homeopatía. Los consumidores de este tipo de productos perciben una mejoría en su patología y la atribuyen al producto ingerido, cuando la mejora podría deberse a una simple remisión espontánea o a un efecto sugestivo indirecto (aunque también podría argumentarse que eso puede considerarse una causa de curación). Desde la web de Spurious Correlations nos ofrecen curiosos ejemplos de hasta qué punto podemos llegar a conclusiones absurdas si establecemos esta clase de relaciones con datos estadísticos... por ejemplo, podríamos llegar a decir que la inversión de USA en ciencia, espacio y tecnología es la causa de los suicidios por estrangulamiento. En realidad, ambos hechos tienen una correlación enorme (0,99), pero eso, en sí mismo, no significa gran cosa.
Sin duda la búsqueda de correlaciones está en el corazón de la revolución del conocimiento que estamos viviendo hoy en día. Sin ir más lejos, es la clave del éxito de Google. La prodigiosa capacidad del buscador para mostrar el contenido que estás buscando, corrigiendo incluso el término de búsqueda empleado, se basa en el análisis de coincidencias. En una entrevista publicada recientemente en Research World, Kenn Cukier (Data Editor en The Economist y coautor de “Big Data: Una revolución que transformará el modo en el que vivimos, trabajamos y pensamos”), afirmaba lo siguiente:
La causalidad es genial, pero a menudo es muy difícil de lograr, o si la conseguimos puede que sea demasiado tarde. Si sólo nos fijamos en la correlación, a menudo es suficiente. Imaginemos por un momento que somos una gran empresa de productos de consumo. Tenemos una gran variedad de productos y diferentes perfiles de consumidores, y queremos hacer un envío de cupones ofreciendo lo que es más probablemente que compre cada persona y que actualmente no compra, basándonos en la información de su cesta de la compra habitual. Podríamos hacer estudios y test a ciegas, para descubrir qué hay detrás de sus decisiones – y en muchas ocasiones querremos descubrirlo - pero la correlación nos ayudará a conseguir lo mismo. Podemos abandonar nuestra devoción por la causalidad y simplemente confiar en la correlación, porque para muchas cosas, es lo único que verdaderamente necesitamos.
Probablemente buscar correlaciones entre sucesos sea la única manera razonable de navegar entre la gigantesca maraña de información que generamos hoy en día. Douglas Edwards, empleado número 59 de Google, nos proporciona una ilustrativa historia sobre esta aproximación al problema. Douglas, en los inicios de Google, recibió el encargo de lanzar una campaña de banners para obtener usuarios. Para ello, planificó una investigación de mercados, una fase de análisis, contratación de agencia publicitaria, pilotos... El lanzamiento requería 7 semanas. Cuando presentó su plan a Sergey Brin, uno de los fundadores, éste lo escuchó atentamente y finalmente le dijo "ven mañana con 100 banners diferentes. Eso nos debería dar suficiente diversidad genética para ver cuáles son efectivos. Abandona los anuncios perdedores y vuelve con otros 100 banners el día siguiente".
Esta anécdota de Google nos lleva al corazón del debate. En un entorno en el que el coste de experimentar y observar es tan bajo, no necesitamos una comprensión profunda de cuál es la causa de que un cliente haga clic en un banner. Seguramente sólo necesitamos observar qué elementos presentes en ese banner correlacionan con el éxito. Pero, ¿puede la correlación darnos todas las respuestas que necesitamos?, ¿no estaremos renunciando a una parte esencial del problema que podría conducirnos a nuevos caminos inexplorados?