Torturando los datos hasta que confiesen

DSS
lunes, 2 de noviembre de 2009

Sayid seria un bien analista data mining

La conocida frase " torturar los datos hasta que confiesen " resume perfectamente cuál es el objetivo de las técnicas de data mining, y será muy útil para continuar esta serie de artículos sobre DSS...

En los anteriores artículos del blog Business Intelligence fácil comentaba que las técnicas OLAP ofrecen un soporte pasivo a la toma de decisiones. Es decir, facilitan únicamente el acceso a la información y la visualización de los datos, pero aportan poco valor añadido a los mismos. Ni recomiendan, ni descubren y, evidentemente, no toman ninguna decisión. Eso es labor del analista, por supuesto.

Si de un interrogatorio se tratase, el Business Intelligence pasivo sería como tratar de obtener información por las buenas, preguntando educadamente al sospechoso. Luego existe la posibilidad de hacerlo por las malas, obligando al interfecto que cante todo lo que sabe. Que seguro que es mucho más de lo que dice.

En la última década, nuestra capacidad para almacenar datos ha crecido a velocidades exponenciales, pero nuestra habilidad para procesarlos y utilizarlos no ha ido a la par. Por ejemplo, un cuadro de mando o una tabla dinámica nos mostrarán fácilmente las ventas mes a mes, o nos dirán que Madrid y Barcelona son las poblaciones donde más se vende, o incluso que los productos de licor no se venden demasiado por las mañanas. Pero todo eso son trivialidades.

El Business Intelligence activo utiliza metodologías de data mining para descubrir patrones ocultos, no evidentes, en la información. Para ello, se emplean modelos matemáticos muy conocidos y estudiados, pero que su aplicación en el ámbito empresarial es todavía reducido, por lo menos en España.

Las técnicas de tortura que se emplean se pueden clasificar del siguiente modo:

  • Exploración : Mediante el análisis de la varianza es posible detectar valores anómalos (detección de fraude...)
  • Clasificación : Analizando el comporatamiento de un indicador respecto varias dimensiones es posible crear grupos de trasacciones homogéneos (análisis ABC, basket analysis, clustering de clientes, propensión al abandono, venta cruzada...)
  • Proyección : Mediante técnicas de regresión es posible predecir resultados futuros o el valor que tomarán determinados parámetros al alterar otros (planificación de ventas, diseño de campañas de márqueting...)
  • Series temporales : Es un caso especial de proyección, pero se estudia independientemente por sus particularidades y especial interes. Se utiliza para detectar patrones regulares en el pasado que permitan realizar predicciones en el futuro (planificación, estacionalidad, Ramadán o Semana Santa, tendencias...)
  • Optimización : Evaluación de todas las posibles combinaciones de varios parámetros para seleccionar aquella que resulte óptima y viable (planificación de la cadena de suminstro, BOM, asignación de recursos ...)

Hay un riesgo, sin embargo, y conviene tenerlo presente... Si torturas suficiente, podrás conseguir que el interrogado confiese cualquier cosa , cierta o no... Es decir, hemos de estar preparados para obtener resultados "no significativos", que no confirmarán ni desmentirán ninguna hipótesis... De hecho, a diferencia de otros métodos estadísticos, el data mining no parte de ninguna hipótesis que queremos confirmar, sino que objetivo es descubrir información oculta, desconocida a priori...

Os dejo varios links que utilizan el mismo símil para introducir los conceptos de minería de datos. El primero menciona varios casos reales de uso estas técnicas en instituciones públicas y privadas; lo recomiendo.