Business Intelligence fácil
Business Intelligence
lunes, 02 de noviembre de 2009

Torturando los datos hasta que confiesen

Sayid seria un bien analista data mining

La conocida frase "torturar los datos hasta que confiesen" resume perfectamente cuál es el objetivo de las técnicas de data mining, y será muy útil para continuar esta serie de artículos sobre DSS...

En los anteriores artículos del blog Business Intelligence fácil comentaba que las técnicas OLAP ofrecen un soporte pasivo a la toma de decisiones. Es decir, facilitan únicamente el acceso a la información y la visualización de los datos, pero aportan poco valor añadido a los mismos. Ni recomiendan, ni descubren y, evidentemente, no toman ninguna decisión. Eso es labor del analista, por supuesto.

Si de un interrogatorio se tratase, el Business Intelligence pasivo sería como tratar de obtener información por las buenas, preguntando educadamente al sospechoso. Luego existe la posibilidad de hacerlo por las malas, obligando al interfecto que cante todo lo que sabe. Que seguro que es mucho más de lo que dice.

En la última década, nuestra capacidad para almacenar datos ha crecido a velocidades exponenciales, pero nuestra habilidad para procesarlos y utilizarlos no ha ido a la par. Por ejemplo, un cuadro de mando o una tabla dinámica nos mostrarán fácilmente las ventas mes a mes, o nos dirán que Madrid y Barcelona son las poblaciones donde más se vende, o incluso que los productos de licor no se venden demasiado por las mañanas. Pero todo eso son trivialidades.

El Business Intelligence activo utiliza metodologías de data mining para descubrir patrones ocultos, no evidentes, en la información. Para ello, se emplean modelos matemáticos muy conocidos y estudiados, pero que su aplicación en el ámbito empresarial es todavía reducido, por lo menos en España.

Las técnicas de tortura que se emplean se pueden clasificar del siguiente modo:

  • Exploración: Mediante el análisis de la varianza es posible detectar valores anómalos (detección de fraude...)
  • Clasificación: Analizando el comporatamiento de un indicador respecto varias dimensiones es posible crear grupos de trasacciones homogéneos (análisis ABC, basket analysis, clustering de clientes, propensión al abandono, venta cruzada...)
  • Proyección: Mediante técnicas de regresión es posible predecir resultados futuros o el valor que tomarán determinados parámetros al alterar otros (planificación de ventas, diseño de campañas de márqueting...)
  • Series temporales: Es un caso especial de proyección, pero se estudia independientemente por sus particularidades y especial interes. Se utiliza para detectar patrones regulares en el pasado que permitan realizar predicciones en el futuro (planificación, estacionalidad, Ramadán o Semana Santa, tendencias...)
  • Optimización: Evaluación de todas las posibles combinaciones de varios parámetros para seleccionar aquella que resulte óptima y viable (planificación de la cadena de suminstro, BOM, asignación de recursos ...)

Hay un riesgo, sin embargo, y conviene tenerlo presente... Si torturas suficiente, podrás conseguir que el interrogado confiese cualquier cosa, cierta o no... Es decir, hemos de estar preparados para obtener resultados "no significativos", que no confirmarán ni desmentirán ninguna hipótesis... De hecho, a diferencia de otros métodos estadísticos, el data mining no parte de ninguna hipótesis que queremos confirmar, sino que objetivo es descubrir información oculta, desconocida a priori...

Os dejo varios links que utilizan el mismo símil para introducir los conceptos de minería de datos. El primero menciona varios casos reales de uso estas técnicas en instituciones públicas y privadas; lo recomiendo.

  1. Sonia LBWednesday, November 04, 2009

    Me ha sorprendido un monton este post. En positivo por supuesto.

    Lo cierto es que cada vez que entro descubro un monton de cosas nuevas. Soy la tipica usuaria de la informacion que pide al equipo de BI todo tipo de datos ... basicamente una pesadilla, pero intento aprender un poco para entender los alcances y limites de BI. (lo cierto es q el equipo de BI de nuestra empresa esta compuesto de Santos a Canonizar, q paciencia la q tienen ...)

    Estoy de acuerdo q a veces seria interesante identificar no solo los puntos criticos (q ya se notan per se) sino aquellas variables q no ves, pero que si las identificas te permitiran conocer patrones de conducta.

    Mencionas las tecnicas de proyeccion y series temporales (me suena a curso de Estadistica II total) tienes algun post donde amplies estos temas? Me interesan un monton

    Gracias

  2. BI FACILThursday, November 05, 2009

    Hola, Sonia.

    Gracias por visitar frecuentemente "Business Intelligence fácil" y por dejar comentarios. Los comentarios siempre son muy bienvenidos, y más si son tan positivos como los tuyos. Lo dicho, gracias :-)

    Te tomo la palabra y publicaré algo sobre series temporales... Hablaré de medias móviles, y de los tres componentes fundamentales de toda serie temporal (tendencia, estacionalidad y ruido)... mmm... Pues ser interesante. Espero escribirlo la próxima semana.

    Un saludo,

    BI FACIL

  3. ILAN HORNAMonday, January 16, 2012

    interesante la pagina para mi una de las mejores en BI

    tengo unas preguntillas que espero me puedan constestar:

    1.-¿que diferencia hay entre una tabla dinamica de excel

    y un cubo olap, acaso excel no es un software diseñado para la toma de decisiones eso fue lo que me dijo un profe de BI

    que enseña la herramienta de microsoft, que ventajas tiene uno sobre el otro?

    2.-en el articulo los cubos olap son una bausra me podrias explicar como modelaria en todo caso esas situaciones que no lo puedo mediante olap es cierto no veo una jerarquia como para poder yo emplear un cubo.