Business Intelligence fácil
Business Intelligence
martes, 01 de marzo de 2011

Cuadrante mágico de Gartner para sistemas Data Warehouse (Enero 2011)

Hace unos días hablaba del cuadrante mágico de Gartner para plataformas Business Intelligence. Casi al mismo tiempo, los analistas de Gartner publicaban también su estudio sobre las soluciones de datawarehousing disponibles. Este es el famoso cuadrante:

Figure 1.Magic Quadrant for Data Warehouse Database Management Systems

Las bases de datos en general, y las dedicadas a sistemas DWH en particular, son un software crucial en todas las empresas, se trata de un mercado súper desarrollado, todas las soluciones son estables, súper eficientes, y gestionan cantidades enormes de información. Aún hoy siguen invirtiendo muchísimo dinero en seguir optimizando y potenciando todas estas soluciones. Como anécdota, diré que jamás he encontrado un bug relevante en ninguna de las soluciones con las que he trabajado (y en cambio es habitual encontrar problemas serios trabajando con las plataformas BI, por ejemplo). ¿Qué quiero decir? Que salvo que trabajes en WalMart o en General Motors, cualquiera de estos sistemas puede ser adecuado para tu empresa (con un correcto dimensionado y, sobre todo, ¡¡¡con un buen modelo de datos!!!).

Sobre el informe de Gartner, destaca- una vez más- el dominio de Teradata sobre todos los demás, aunque Oracle e IBM se mantienen fuertes justo detrás. Esta vez, Microsoft ya no aparece en el cuadrante de los líderes, aunque es justo reconocer que en este estudio no han considerado la solución MPP de Microsoft (SQL Server 2008 R2 Parallel Data Warehouse, PDW) debido al retraso en su lanzamiento (el reléase oficial fue en Noviembre del 2010, como los atentos lectores de BI fácil saben).

También es interesante observar que:

  • Fabricantes pequeños están haciéndose un hueco en este mercado super-maduro y competitivo.
  • Las soluciones appliance (combinación preconfigurada de software y hardware) ganan aceptación .
  • Las bases de datos basadas en columnas también obtienen un buen resultado y un hueco en el cuadrante.
  • Cada vez los requerimientos de volumetría son mayores, y se sigue innovando para mejorar rendimiento, escalabilidad... y aprovechando las nuevas características hardware (SSD).
  • Como curiosidad, aún aparecen los nombres de Netezza y Sybase... ya veremos si en el 2012 sólo aparecen las compañías que las compraron (IBM y SAP, respectivamente).

Por supuesto, realizar un estudio comparativo entre plataformas DWH es sumamente complicado (y caro). La experiencia propia de cada uno, o cualquier comparativa que puedas hacer en un servidor de tu empresa es irrelevante, por lo que carezco de criterio para decir si estos resultados me parecen bien o mal. Me fio de Gartner (igual que no me fiaría de IDC). Aquí os dejo el estudio:

Sin embargo, al leer este estudio tengo la impresión que han valorado las características técnicas (rendimiento, escalabilidad, volumetría,...) de cada solución, pero que han ignorado otros aspectos que facilitan la implantación del DWH, y que también son importantes. Me estoy refiriendo a la usabilidad del ecosistema de aplicaciones que acompaña cada plataforma DWH...

Por ejemplo, ayer instalé Oracle Database 10g Express Edition para Windows, y el asistente de instalación seguía los estándares propios de los años 90 (pantalla gris, iconos de 16 bits, asistente confuso...), y las herramientas web de administración son patéticas (al menos visualmente). Estoy seguro que ese asistente lo habremos utilizado cientos de miles de usuarios, y cada uno de ellos termina con este triste diálogo...

¿Qué me estás preguntando?

No es un caso único. Las herramientas de Teradata (líder indiscutible) son todavía peores (BTEQ, Queryman... arghhh), propias de principios de los 80...

La verdad es que me cuesta de entender estos defectos de usabilidad (que –en definitiva- acaban suponiendo un coste en la productividad). Supongo que confían mucho en las características propias e inigualables de sus gestores de datos... pero, la verdad, ya se podrían plantear renovar el interfaz de usuario...

Si no lo digo, reviento.

lunes, 14 de febrero de 2011

Si le dejas el Excel a un usuario de negocio, pasa lo que pasa

En el anterior artículo hablaba de la triste y cruda realidad del Business Intelligence. Según el reciente informe de Gartner (2011 Q1), las suite de Business Intelligence de los proveedores líderes son complejas, caras, y presentan importantes deficiencias en cuanto a rendimiento y usabilidad.

El eje vertical del cuadrante mágico (ability to execute) mide la capacidad de cada proveedor para ofrecer soluciones de éxito al mercado. Este indicador valora, sobretodo, esto cuatro aspectos:

  • Producto/Servicio (funcionalidades, calidad del software, robustez, etc.)
  • Precio
  • Experiencia de cliente (soporte, experiencia de usuario)
  • Viabilidad (capacidad financiera y estratégica para seguir invirtiendo en el producto)

Los resultados concretos de cada criterio de evaluación no están disponibles (se ha de pagar, creo), pero el resultado ponderado en el cuadrante mágico es éste:

Ránking de proveedores Business Intelligence (Ability to excecute, Gartner 2011)

De entrada, los resultados parecen sorprendentes: Microsoft lidera la clasificación, y SAP Business Objects ocupa la última posición entre los líderes, a gran distancia de todos los demás.

Seguro que el precio y la experiencia de usuario han disparado la clasificación de Microsoft. Todos los usuarios están encantados con Microsoft Excel. Y el soporte de Microsoft es el mejor posible: Nunca se ha de llamar al soporte técnico porque todo funciona. El Excel nunca se cuelga, y si existen problemas de rendimiento asumimos que se trata de la impericia del usuario...

El TCO es espectacular: Una hoja Excel realizada en 1990 la podríamos abrir con la última versión y seguir trabajando con ella (como si en estos últimos 20 años no hubiera pasado nada). Ningún otro proveedor puede decir lo mismo. Ni lo mismo, ni nada parecido (probablemente el informe que realices hoy con Business Objects no lo podrás abrir –tal cual- con la versión que anuncian para el próximo 23 de febrero...y deberás gastarte medio presupuesto para “integrarlo/migrarlo/adaptarlo”).

Como profesional del Business Intelligence, sin embargo, debo afirmar rotundamente que la suite de Microsoft también tiene muchas deficiencias. Para empezar, no existe propiamente un “software de BI de Microsoft”... La suite de Microsoft consiste en la combinación de tres herramientas distintas: Sharepoint, SQL Server y Excel.

Y cada uno de estos productos tiene un ciclo de desarrollo independiente, donde el Business Intelligence nunca es la pieza fundamental. Cuando diseñan el roadmap de Sharepoint, no piensan en BI en primer lugar... y cuando preparan las futuras versiones de SQL Server o Excel... tampoco. Tanto es así que todavía no tienen una capa semántica, que es una de las principales fortalezas que ofrece –MUST HAVE- una verdadera suite de Business Intelligence.

Si la empresa ya tiene Sharepoint y SQL Server (asumo que el Excel sí que lo tiene todo el mundo), es posible que pueda aprovechar las características de BI de Microsoft, y ahorrarse una multimillonaria inversión en otro producto... Sin embargo, si no se tiene Sharepoint ni SQL Server, es complicado justificar su adquisición sólo por sus funcionalidades BI.

Hoy en día, los entornos empresarias son tecnológicamente heterogéneos. ¿De qué manera puede ayudarme Microsoft si quiero tener mi datawarehouse en Oracle o Teradata, por ejemplo?

Por estos motivos, diga lo que diga Gartner, me seguiré olvidando de Microsoft cada vez que tenga que enumerar a los proveedores de BI. Microsoft no tiene una herramienta pensada en el usuario de negocio. Microsoft Business Intelligence es la combinación de unas excelentes herramientas enfocadas a desarrolladores y técnicos (e incluyo aquí al Excel), pero si se las dejas a un usuario que sólo necesita acceder a la información corporativa y analizarla, pasa lo que pasa...

Dos usuarios de negocio tipo de una empresa tipo trabajando con Microsoft Excel

miércoles, 10 de noviembre de 2010

El “Parallel Data Warehouse” de Microsoft Business Intelligence

La Appliance de Microsoft Business Intelligence

Hace más de un año anunciábamos que la integración de DATAllegro con SQL Server estaba cercana, y hace 6 meses decíamos que este lanzamiento del “Parallel Datawarehouse” se retrasaba, y no concretaban una fecha para su lanzamiento.

Pues bien, Microsoft ya ha anunciado la disponibilidad de este interesante producto. Forma parte de la familia de productos de SQL Server y, formalmente, se llama “Microsoft SQL Server 2008 R2 Parallel Data Warehouse” (y lo abrevian como PDW).

Se trata de una “Appliance”, es decir, se distribuye junto con un Hardware específico previamente configurado, y ofrece una alta escalabilidad (hasta cientos de Terabytes) para las necesidades de Business Intelligence y datawarehousing de gama alta.

Técnicamente, se caracteriza por una arquitectura MPP (procesamiento masivamente paralelo), y por una infraestructura “shared nothing”. Es decir, los N nodos que forman el Datawarehouse no comparte ni memoria, ni capacidad de proceso, ni nada entre sí. En teoría esto permite doblar el rendimiento del sistema doblando el número de servidores. Este aumento lineal del rendimiento (tan deseable) no es posible conseguirlo con otro tipo de arquitectura (y me estoy acordando de las promesas del Oracle RAC...).

El rival a batir es Teradata, que ofrece una combinación hardaware/software similar desde hace más de 20 años, y lidera el segmento de las bases de datos DWH para entornos Business Intelligence...

La solución equivalente de Oracle es Oracle Exadata Database Machine. Aunque mientras Teradata y el Microsoft PDW están diseñados específicamente para sistemas analíticos, Oracle asegura que Exadata es adecuado también para sistema OLTP. Carezco de información y experiencia para opinar sobre Exadata, pero sinceramente me resulta muy extraño que una misma combinación HW/SW sirva tanto para un sistema OLAP y un sistema OLTP. Las necesidades de uno y otro son muy diferentes, y lo que requiere uno, penaliza al otro... Aunque es sabido que los folletos comerciales nunca entran en estos detalles “intrascendentes”:

  • Extreme performance for data warehouses
  • Extreme performance for OLTP applications

En fin, que está interesante, y los clientes BI tendrán más opciones donde elegir. También es presumible un descenso de los precios (aunque antes Microsoft deberá documentar un número considerable de casos de éxito).

Os dejo a continuación la hoja de producto de las tres alternativas comentadas:

martes, 13 de abril de 2010

Se retrasa el "Parallel Data Warehouse" de Microsoft BI

Hace unos meses anunciábamos que Microsoft Business Intelligence estaba preparando el lanzamiento de una edición de SQL Server diseñada específicamente para la construcción de grandes datawarehouses. Debía estar disponible en el primer semestre del 2010.

Recientemente Microsoft ha confirmado el retraso de este lanzamiento, y de momento no existe ninguna fecha oficial. En principio, esperan poder anunciar una fecha definitiva durante este verano del 2010.

Esta edición de SQL Server, salga cuando salga, se llamará SQL Server Parallel Data Warehouse, y con ella esperan hacerse un hueco en la implantación de grandes datawarehouses. Hasta hora, estas instalaciones eran terreno propicio para proveedores como Teradata (eBay, Wal-Mart...) u Oracle (China Telecom, Giant Eagle)...

Las características del Parallel Data Warehouse incluyen:

  • Alta escalabilidad (hasta cientos de Teras...)
  • Coste reducido (comparado con los demás...)
  • Facilidad de despliegue y mantenimiento

Técnicamente, esto se consigue gracias a estas tres características:

  • Paralelismo masivo
  • Arquitectura shared-nothing (los distintos nodos no comparten memoria, ni disco, ni nada...)
  • Modelo Appliance (se distribuirá conjuntamente con hardware preconfigurado, de cualquiera de los principales proveedores dw HW)

Componentes de la plataforma de Microsoft Business Intelligence

¿Conseguirán quitarse el sambenito que dice que SQL Server sólo es adecuado para pequeños datawarehouses?

Más info:

miércoles, 17 de febrero de 2010

Características técnicas de Bingo Intelligence

Hasta ahora os he hablado de las principales características funcionales de Bingo Intelligence. A través de varias entradas en este blog, y una serie de vídeos, he hablado de la facilidad de uso de este software de Business Intelligence, y del dinamismo de las aplicaciones generadas. Creo que sus características funcionales son la principal fortaleza de Bingo, y ya tendremos ocasión de seguir hablando de ello.

Sin embargo, hoy quiero hablar sobre algunas características técnicas de Bingo, y responder así las inquietudes que me habéis transmitido a través de los comentarios o por correo electrónico.

Bingo Intelligence se ha desarrollado íntegramente con las más modernas tecnologías, y con una arquitectura que proporcione un alto rendimiento, seguridad y estabilidad, y que por supuesto cubra los requerimientos funcionales para los que se diseñó. Los cuatro aspectos más destacados de su diseño técnico son:

  • Software ROLAP: Bingo Intelligence se conecta a cualquier base de datos relacional. Para ello, se define un "catálogo" que sirve como capa semántica entra la estructura física de la base de datos (la que sea), y la visión de negocio que conoce el usuario. La arquitectura ROLAP permite una completa libertad para modelizar la complejidad del negocio, simplica el proceso de implantación (no es necesario crear y mantener una base de datos multidimensional), y se trata de una arquitectura estándar fácilmente integrable con cualquier otro sistema (cosa que no ocurre con los "cubos" o las "nubes de datos")... Además, teniendo en cuenta el volumen de información que requiere un cuadro de mando típico, y considerando lo optimizado que están las bases de datos relacionales, y el HW actual… los tiempos de respuesta tampoco son un problema. La clave, como siempre, está en una correcta modelización del datawarehouse/datamart.
  • Arquitectura SOA (basada en servicios): En una instalación típica de Bingo, existe un servidor central que ofrece servicios BI a todos los clientes, y centraliza la gestión de la seguridad y las conexiones a las bases de datos.
  • Smart Client: Se trata de una solución que íntegra las ventajas de una aplicación web (o cliente ligero) y una aplicación de escritorio (o cliente pesado). El cliente de Bingo Intelligence tiene el "look and feel" de una aplicación de escritorio, aprovecha los recursos hardware de la máquina, y ofrece un rendimiento superior. Además, se instala fácilmente desde la web y las actualizaciones pueden ser automáticas sin intervención del usuario... Tal vez se trate del aspecto más diferenciador respecto otras alternativas, y permite unos niveles de usabilidad y productividad impensables en una solución web (manteniendo la facilidad de instalación y despliegue)...
  • Capa semántica: La capa semántica con la que interactúa el usuario es la más avanzada del mercado, y gestiona de manera transparente para el usuario el uso de tablas agregadas, la generación de múltiples consultas, queries parametrizadas, y consultas temporales (YTD, ...)....

La siguiente imagen corresponde al diseñador de "catálogos", y muestra un diagrama típico de tablas con una estructura de "copo de nieve"...

El catálogo de Bingo Intelligence define la estructura de negocio que everá el usuario

También es interesante la sencillez de la aplicación para configurar la plataforma Bingo Intelligence, que consiste en una única pantalla que muestra un diagrama de la arquitectura:

Configuración servidores de Bingo Intelligence

En este diagrama están representados los siguientes componentes (que pueden estar distribuídos en diferentes máquinas, o no):

  • La última versión disponible está en la "nube" (para que el administrador del sistema la descargue cuando quiera).
  • El "cliente de configuración" es la aplicación que utiliza el administrador para configurar la plataforma dentro de su organización.
  • Dentro de la intranet, existe un "servidor de instalación y actualización", donde se conectan todos los usuarios de la empresa para buscar la última versión.
  • El "servicio Bingo Intelligence" (IIS) centraliza la conexiones a las bases de datos de la empresa y al repositorio de este software de Business Intelligence.
  • El "repositorio" (SQL Server) contiene la metainformación de la aplicación (catálogo, estructura de los informes y cuadros de mando, definición de seguridad, etc...)
  • Los datos de negocio pueden estar guardados en el datawarehouse corporativo, algún datamart departamental, o en cualquier base de datos relacional (Oracle, SQL Server, Teradata, MySQL, DB2, ....).
viernes, 05 de febrero de 2010

Cuadrante mágico de Gartner para datawarehouses

Gartner ofrece regularmente dos estudios que resultan especialmente interesantes para los profesionales del Business Intelligence. Me refiero, naturalmente, al cuadrante sobre las plataformas Business Intelligence y al cuadrante sobre los sistemas datawarehouses.

Ayer mencionaba el cuadrante mágico para plataformas Business Intelligence, y hoy comparto con vosotros el segundo estudio. Aquí lo tenéis:

Las diferencias respecto el cuadrante análogo del 2008 son mínmas. Teradata lidera claramente el mercado DWH, y le siguen los pasos Oracle, IBM y Microsoft... Este año, además, aparecen muchos nuevos competidores, pequeños y poco conocidos en España, y sobre los cuales deberemos estar alerta...

El famoso cuadrante mágico de Gartner para las bases de datos para DWH

Aunque el gráfico ha cambiado poco, el mercado está evolucionando rápidamente. De esta manera, se popularizan las "appliances" (combinaciones de software y hardware preconfigurados y listos para usar), y se va extendiendo el uso que se hace de los datawarehouses actuales. Ya no son sólo repositorios donde se almacena la información para hacer informes, sino que se aprovecha la arquitectura para otras muchas funcionalidades (BI operacional, performance management, planning, monitorización del negocio [BAM], etc.). Es decir, poco a poco vamos activando nuestros DWH, y vamos reduciendo la distancia entre el dato y la acción... El DWH ofrece un soporte activo a la toma de deciciones (decisiones de todo tipo, y a todos los niveles de la organización). A esta evolución algunos la han denominado como "active datawarehousing", "BI pervasivo", o simplemente "Business Intelligence activo"...

Técnicamente, también se están popularizando cuestiones como la carga contínua de información, el acceso por columnas, el paralelismo hardware y el paralelismo masivo, la "temperatura" de la información... y pronto hablaremos de unidades en estado sólido (SSD)... y todo ello en busca de mayor rendimiento a un menor coste...

Otro aspecto interesante que menciona el estudio es el resurgimiento de los datamarts. A pesar del protagonismo que está adquiriendo el datawarehouse corporativo, los "datamarts" siguen existiendo y siguen teniendo su utilidad. El "datamart" es la manera más sencilla y rápida para obtener un buen rendimiento (sin comprometer otros sistemas corporativos), por lo que resulta adecuado en aplicaciones analíticas independientes (por ejemplo, para sistemas de cuadros de mando...).

jueves, 12 de noviembre de 2009

50 minutos en espera en el 122. ¿Cuelgo o espero?

Las portadas de hoy contienen información repetida mil veces, o intrascendente. En Menéame, no dudaría en etiquetarlas como "cansinas".

Estamos a jueves, y los periódicos siguen sin publicar la noticia de mayor interés, y más relevante de la semana. Los periódicos tradicionales ponen en sus portadas cuestiones tratadas mil veces, o que directamente aburren a sus lectores (¿o, viendo sus índices de venta, debería decir antiguos lectores?).

Hoy, los periódicos más importantes de mi ciudad hablan de corrupción urbanística en las instituciones catalanas, o del caso Millet, incluso destacan una posible futura ley electoral, sobre la que "no se conoce el alcance que podría tener la futura ley"...

La verdadera noticia noticiosa ocurrió el pasado domingo a las 21:37 horas, cuando una persona llamó al servicio de atención al cliente de Vodafone para resolver una incidencia en su línea; una señorita atendió su llamada y le dijo que esperase un momento. El paciente usuario tuvo que esperar más de 27 horas. Sí, 27 horas escuchando el Claro de Luna (o la música del servicio de atención al cliente de Vodafone, que no se cual es...).

Grankoala no esperaba la repercusión que ha tenido, ni aparecer citado en Business Intelligence fácil

No nos habríamos enterado de la situación si el "grankoala" (éste es su nick), cansado de esperar, no hubiese publicado en un foro de internet su problema... 50 minutos en espera en el 122. ¿Cuelgo o espero?. La cuestión captó el interés de los internautas, y le animaron a seguir en espera, el foro tuvo comentarios por millares, a las pocas horas ya era portada en Menéame, incluso se creó una página en Facebook. Después de 27 horas de espera, le cortaron la llamada; y parece que le han ofrecido un descuento del 10% en las próximas 3 facturas. Las cifras son un buen indicador del interés de la noticia: miles de comentarios en foros y blogs, 3.000 seguidores en facebook, 2.200 meneos...

Mientras, los periódicos siguen hablando sobre unas posible futura ley electoral sobre la que nada se sabe. Eso sí, en páginas interiores, incluyen una noticia sobre una nueva promoción de Movistar, que ofrecerán descuentos de precio por publicidad sonora, o no se qúe...

No sé vosotros, pero yo veo aquí un montón de noticias más interesantes. Y no es un tema que sólo me interese a mí. Prácticamente la totalidad de usuarios de telefonía estamos muy descontentos con el servicio, las tarifas y la atención al cliente que recibimos.

Os contaré mi última peripecia con Vodafone, aunque estoy seguro que vosotros tenéis las vuestras propias. Hace unos meses, un familiar se intentó descargar un politono (ya, ya, ¡craso error!), la musiquilla no la recibió, pero desde entonces empezó a recibir 4 mensajes diarios de publicidad... A los diez días, seguía recibiendo esos mensajes, y le animé a averiguar si tenían un coste y la manera de darse de baja... Sí, tenían coste, y ya llevaba una factura de unos 30 euros (¡por publicidad no solicitada!). Intentamos hablar con Vodafone, solicitando la baja inmediata de este servicio, y la devolución del importe. No os contaré los detalles, las innumerables esperas, y sus bizantinas explicaciones. Tanto dá. No nos devolvieron el dinero, y finalmente tanto mi familiar y yo nos dimos de baja de Vodafone y nos apuntamos a Simyo. Por cierto, en áquel momento todo eran ofertas para obtener nuestra permanencia... creo recordar que nos ofrecieron un descuento del 30% en las próximas 6 facturas. Con Simyo he reducido a la mitad mi tarifa telefónica, y por fin entiendo mi plan de precios.

¿Tiene esto que ver con el Business Intelligence? Pues sí, y por eso lo menciono en este blog sobre Business Intelligence. Los sistemas de "atención al cliente" tienen un fuerte compenente operativo, para atender las llamadas, redirigirlas al departamento adecuado, etc, pero también existe un componente analítico muy importante (para detectar llamadas recurrentes, usuarios descontentos, márketing dirigido, etc.). Vodafone tiene un datawarehouse con Teradata, y utiliza Microstrategy como herramienta analítica. Teradata presume de su "pervasive intelligence", según la cual se pueden generar alertas automáticas en tiempo casi real, aunque parece que les falta la alerta para detectar llamadas que superan las 24 horas de espera. Microstrategy incluso sacó una nota de prensa sobe el magnífico uso que hace el call center de Vodafone de las herramientas de Microstrategy.

En fin, evidentemente, en este caso la culpa o el problema no es de las herramientas de BI. Por ejemplo, la persona que la ha ofrecido un descuento del 10% como compensación debería recibir un castigo ejemplar: Escuchar el Claro de Luna durante 27 horas...

Y los periódicos merecen todo lo que les ocurra. Un tema así debe ser portada en los diarios nacionales, con extensos análisis y editoriales en páginas interiores. Es abusivo el precio que pagamos por las telecomunicaciones (fija, móvil o internet) en España, y la manera con que Gobierno y operadoras ningunean a los ciudadanos.

ACTUALIZACIÓN: No era el Claro de Luna... Podéis oir la llamada cuando llevaba 25 horas y pico...

jueves, 29 de octubre de 2009

Ejemplo DSS: Pañales y cervezas

Historia de los pañales y la cerveza como ejemplo paradigmático de minería de datos y Business Intelligence

Lo bueno de dedicarse a un mundo tan especializado como el Business Intelligence en general, o el data mining en particular, es que con muy poco puedes ser considerado como todo un experto, y captar la atención del auditorio.

Para ser todo un experto en mineria de datos, sólo es necesario saber dos historias. Una la contaré hoy, y otra la dejaré para el próximo artículo, de esta manera -me cuentan- se consigue un mayor suspense y aumenta el interés hacia este blog, tan interesante ya de por sí :-)

La historia, real o imaginaria, se situa a finales de lo 90, en la sede central de la cadena de supermercados Wal-Mart, donde decidieron iniciar un proyecto de basket analysis utilizando la ingente cantidad de información contenida en su Teradata datawarehouse.

Inicialmente, los resultados no parecieron muy espectaculares, ya que vieron que quien compraba pasta dentífrica también compraba cepillos de dientes; tampoco sorprendió que quien comprase whisky DYC inevitablemente adquiriese Cocacola... La sorpresa fue observar una correlación estadísticamente significativa entre la compra de pañales y cerveza.

Incorporaron la información de sus tarjetas de fidelización para profundizar en el estudio, y vieron que los compradores de cerveza y pañales eran varones de entre 25 y 35 años, que solían comprar estos productos conjuntamente los viernes por la tarde.

Con todos estos datos, fue fácil dar una explicación al fenómeno, y tomar medidas comerciales para aumentar las ventas, y justificar así el sueldo de todos estos analistas. Como los pañales son voluminosos, las madres enviaban a los padres de las criaturas a comprar los pañales, estos esperaban a último momento para hacerlo, y aprovechaban para comprar cervezas que se tomarían en casa, ya que en la sociedad americana está mal visto que un padre de familia frecuente los bares hasta tarde, y vuelva a casa dando tumbos...

Sea como fuere, tomaron la decisión de colocar las cervezas cerca de los pañales, con la intención de que los padres que compraban pañales y que no solían comprar cerveza, se acordasen que faltaba cerveza en casa. Me imagino que el argumento contrario también debe ser cierto, es decir, que los señores que iban a comprar cerveza, se acordasen que tienen un niño en casa.

Los resultados fueron espectaculares, o no estaría escribiendo sobre esto, y aumentaron entre un diez y un quince por cierto tanto las ventas de cevezas como de pañales.

La historia, real o no, es un buen ejemplo de los beneficios que puede aportar la minería de datos y, en particular, al análisis de la cesta de la compra (market basket analysis). Para que veais que no me lo he inventado íntegramente, aquí tenéis dos artículos que hablan sobre ello:

Recordad que esta es sólo una de las cosas que debéis saber sobre data mining. La otra -mucho más importante y crucial- la explicaré en el próximo artículo.

martes, 27 de octubre de 2009

Business Intelligence activo

En el anterior artículo sobre DSS hablaba del "Business Intelligence activo", y lo definía como un sistema de información que utiliza modelos matemáticos o estadísticos para detectar patrones ocultos; mencionaba los modelos de optimización, proyección y clasificación como algoritmos paradigmáticos que ayudan activamente a la toma de decisiones. Y lo contraponía al Business Intelligence clásico, que sólo ofrece un soporte pasivo.

Al buscar el término en Google, me ha dado cuenta de ser el primero en hablar explícitamente de "Business Intelligence activo"... ¿Realmente es tan novedosa la idea? Bien, en realidad no tanto, Teradata hace tiempo que habla de "Active datawarehousing", y otros emplean la expresión "Pervasive Business Intelligence" para poner connotaciones semejantes.

En realidad, lo que trataba al utilizar esta expresión es quitar la connotación técnica y matemática que se ha formado detrás de todo lo referente a la "mineria de datos". Actualmente, hay que ser un estadista licenciado para sacar provecho a las herramientas existentes (SPSS, SAS, R, S-Puls...). Y, sin embargo, todos podemos entender que es una proyección, una optimización de recursos, o un ABC de clientes... ¿Qué herramientas estándar ofrecen los proveedores de Business Intelligence para este tipo de problemáticas? Nada, o casi nada, con Web Intelligence, con Cognos, o Microstrategy no es posible hacer ni una regresión lineal, y mucho menos una clusterización de clientes... ¡Y luego nos soprendemos que los usuarios prefieran el Excel!

Cuando estos proveedores incorporen estas funcionalidades podremos hablar de Business Intelligence activo.

jueves, 22 de octubre de 2009

Vídeo sobre las novedades de Microsoft BI

Hace unos días comentaba como Microsoft Business Intelligence piensa incluir las características de DatAllegro en SQL Server 2008 y de este modo poder competir con soluciones tipo la de Teradata. Está integración forma parte del roadmap que ha planeado para su suite de Business Intelligence. En resumen, las características más interesantes están contempladas dentro de estos dos proyectos:

  • Kilimanjaro: Se trata de nuevas funcionalidades que se añadirán a SQL Server 2008 (¿A través de un service pack?) mediante las cuales se pretende otorgar más autonomía a los usuarios de negocio, y mejorar las posiblidades que tienen los usuarios técnicos para administrar el sistema.
  • Madison: Se trata de la integración de DataAllegro (compañía adquirida por Microsoft) con el motor relacional de Microsoft SQL. Con el tecnología MPP y el shared-nothing conseguirán sistemas altamente escalables, de alto rendimiento, gran capacidad, y a un coste por Tb reducido.

Es interesante destacar que estos productos (que finalmente tendrán otros nombres) saldrán al mercado a medidados del 2010, es decir, antes que el siguiente major release de SQL Server (SQL Server 2011, o el que sea...)

Sobre Madison, ya comenté algo el otro día, por lo que esta vez me centraré en Kilimanjaro.

Objetivos del proyecto Kilimanjaro de Microsoft Business Intelligence

Como se puede ver en la imagen, el foco de Kilimanjaro está en mejorar las posibilidades que tiene el usuario final para construir sus propios informes, con menor dependencia de IT. Una de las claves será el add-in de Excel denominado PowerPivot, y se caracterizará por su integración con Excel 2010 (como no podía ser de otra manera), el uso de tecnología BI in-memory, y la integración con Analysis Services y Sharepoint... Esto permitirá utilizar una tabla dinámica contra los datos de Analysis Services (¡pero con los datos comprimidos en el PC cliente!) y publicarlo en formato report. Observad esta imagen que pulveriza la limitación de 65.000 filas de Excel 2003 (o la de 1 millón de filas de Excel 2007):

Tabla dinámica sobre un conjunto de 100 millones de filas

Seguiremos atentos, después de lo de PerformancePoint (recordad), Microsoft no se puede permitir más titubeos. Yo creo que Kilimanjaro-Gemini-Madison pinta bien, aunque le encuentro a faltar la posibilidad de atacar directamente a un modelo relacional (prescindiendo de los cubos de Analysis Services). En fin, esteremos atentos...

Componentes de la arquitectura de Microsoft Business Intelligence

Ah, os dejo el vídeo sobre el roadmap de Microsoft Business Intelligence que prometía el título de este artículo. Dura 55 minutos.

sábado, 26 de septiembre de 2009

Tecnología "in-memory" para el Business Intelligence

En mi anterior artículo comentaba la relevancia que le están dando los proveedores de Business Intelligence a la tecnología "in-memory".

La memoria RAM in memory para el Business Intelligence

A través de Information Week, he sabido que el nuevo producto de SAP (SAP Business Objects Explorer) también utiliza esta técnica para ofrecer unos mejores tiempos de respuesta.

Creo que la idea es interesante y hemos estar atentos para ver su evolución. Sin embargo, de entrada, le veo algunas "pegas".

Principalmente, considero que los proveedores de bases de datos (Oracle, SQL Server, Teradata...) tienen unos productos excelentes, altamente optimizados, robustos, y que pueden gestionar volúmenes de información grandes y pequeños. También disponemos de bases de datos multidimensionales. ¿Realmente QlickView, Microstrategy o BO deben reinventar la rueda para ofrecer una manera mejor de realizar consultas? ¿A qué aspectos estaremos renunciando? Se me ocurren los siguientes:

  • Volumen de información. Evidentemente, estos sistemas "en-memoria" estarán limitados en la cantidad de información que pueden gestionar. Aunque, de todos modos, es cierto que ni todos los datawarehouse tienen decenas de teras, ni las consultas habituales requieren todo el detalle de información.
  • Modelo de datos. El modelo de datos de estos sistemas es extremadamente sencillo, no se defienen ni índices, ni relaciones, ni nada. En teoría, todo está optimizado. Sin embargo, ¿Puede nuestro modelo de negocio modelizarse de una manera tan sencilla? ¿Realmente podemos prescindir de relaciones n-m? ¿Todo puede incluirse en una sola tabla de hechos? Mi experiencia dice que no, y que las "consultas habituales" requieren modelos de datos más complejos. Y si no fuera asi, ¡¡Ya tenemos los cubos multidimensionales!! ¡¡Que sí que ofrecen respuestas instantáneas para un volumen de datos moderado!!

Mi conclusión es que estas soluciones pueden complicar un catálogo de productos ya excesivamente complejo, y que pueden generar nuevos problemas (duplicación de información y procesos, básicamente).

En los comentarios del artículo de Information Week alguien hacia algunas reflexiones interesantes:

I regularly hear the MPP database vendors bat down in-memory solutions as a transitory bump-up in scalability and performance, effective for now, but not on a long-term roadmap. They contend that when the data volumes and analytics workloads inevitably grow, in-memory hardware becomes less practical and economic, and ultimately has scalability limits. Of course, as SSDs become more economical and replace conventional disk drives, then MPP database vendors will become on a larger scale closer to what in-memory solutions provide now on a smaller scale. -–Mike

Efectivamente, los dispositivos en estado sólido (SDD) están a punto de revolucionar la tecnología del almacenamiento. De hecho, Teradata ya los incluye en su "roadmap"... Estos dispositivos de almacenamiento usan memoria no volátil tales como flash para almacenar datos, en lugar de los platos giratorios encontrados en los discos duros convencionales, por lo que su lectura es mucho más rápida. ¿Afectará esto a la naciente tecnología "in-memory"?

jueves, 17 de septiembre de 2009

Microsoft Business Intelligence, tras las huellas de Teradata

Microsoft Business Intelligence SQL Server 2008

Según anuncia este blog de Microsoft, ya está cercana la integración de DATAllegro (compañía adquirida recientemente por Microsoft) con Microsoft SQL Server. Ya están distribuyendo una muestra de la nueva tecnología a la comunidad (CTP release).

Se trata de la solución que ofrecerá Microsoft para la implantación de datawarehouses altamente escalables. El datawarehouse será, básicamente, una serie de servidores SQL Server que trabajarán conjuntamente. Las ideas básicas de esta nueva arquitectura son:

  • Arquitectura shared-nothing. Las tablas estarán particionadas en un conjunto de nodos físicos, cada nodo dispondrá de su propia CPU, de su propia memoria, de su propio storage, e incluso de su propia instancia de SQL Server.(Por cierto, la arquitectura de Google es también shared-nothing...¿O pensábais que Google tiene sólo un ordenador muy grande?)
  • Procesamiento paralelo masivo (MPP). Es decir, una query se dividirá entre los distintos nodos, cada nodo resolverá la query para su trozo de los datos, y se devolverá un único resultado al usuario.

¿Os suena de algo esta arquitectura? Efectivamente, este sistema es básicamente igual a los servidores Teradata, líder indiscutible como gestor de datawarehouses de gran tamaño y alto rendimiento. Os recomiendo esta introducción a la tecnología de Teradata.

Gartner Teradata líder Business Intelligence

Sin duda, este tipo de arquitecturas es el futuro de cualquier datawarehouse grande. Aunque suene a tópico, es totalmente cierto: Lo que vale para OLTP no vale para el OLAP. ¿Hará algún movimiento Oracle (y no me refiero a esto)? ¿se concretarán algún día los rumores sobre una posible compra de Teradata?

domingo, 22 de junio de 2008

Software Business Intelligence

(apartado en construcción)

En este apartado se listan los productos de los principales proveedores de Business Intelligence. Además de una breve descripción, se incluye el enlace hacia las páginas oficiales de estas empresas y videos o demos disponibles.

Herramientas Business Intelligence

Herramientas ETL

  • Sunopsis
  • Informatica

Bases de datos

  • Oracle
  • Microsoft SQL Server
  • Teradata
  • DB2
  • MySQL
  • Illuminate
  • Hyperion
  • Infor MIS
  • PALO
lunes, 25 de febrero de 2008

Noticia Business Objects

En una nota de prensa distribuida por SAP puede leerse:

While XI 3.0 was in development long before Business Objects was acquired by SAP in January 2007, there are some unique linkages between XI 3.0 and SAP applications, said Aman. For example, XI is more tightly intertwined with the SAP Business Warehouse and offers faster performance when users tap into data that comes from R3 or the Warehouse than if the data was from a non-SAP source.

¿Qué quiere decir esto? ¿Es malintencionado suponer que Business Objects funcionará peor con orígenes de datos que no sean propiedad de SAP (leáse Oracle, SQL Server, DB2, Teradata…)? ¿O es precisamente eso lo que nos están diciendo?

Leyendo esta noticia, es razonable suponer que están dedicando esfuerzos en mejorar la integración con el SAP Business Warehouse, unos esfuerzos de I+D que sólo beneficiaran a una pequeña parte de sus clientes…

Deberemos ver cómo evoluciona el mercado después de las últimas adquisiciones, pero este tipo de noticias son un mal síntoma…