viernes, 30 de noviembre de 2012

1.33 Metodología para proyectos de Inteligencia de Negocio (BI). Segunda Parte

Dra. Dafne Rosso Pelayo
La inteligencia de negocio en la empresa, sólo puede lograrse mediante la adopción de medidas para alcanzarla.


En el artículo anterior iniciamos la construcción de un prototipo de BI empleando CRISP-DM (Cross Industry Standard Process for Data mining) (1), una metodología para proyectos que emplean minería de datos particularizando en la primera fase de la metodología concerniente al entendimiento del negocio.
En este artículo continuaremos describiendo la metodología CRISP-DM, esta vez plantearemos su segunda fase relacionada con el entendimiento de los datos,  permítanme nuevamente comentar la importancia que tienen las primeras dos fases para el éxito del desarrollo de las soluciones de BI.

Entendiendo los datos
Como comentamos en el artículo anterior, la metodología que empleamos es una metodología iterativa, dado que es necesario controlar los cambios, los recursos, los costos, y  las expectativas durante el desarrollo de cualquier proyecto de BI, el uso de una metodología secuencial tradicional con iteraciones rígidas, aumenta el riesgo en el  desarrollo, el término y el éxito del proyecto.
Tanto la fase uno (Entendimiento del negocio) como las siguientes dos fases (Entendimiento de datos y Preparación de datos) se encuentran  en gran medida relacionadas, de manera que la iteración entre ellas va a ser grande, esto es, por ejemplo,  un cambio en el entendimiento de los datos puede propiciar un cambio de alcance.
Al estar estas fases muy relacionadas es casi seguro que el desarrollo de la segunda  fase va a implicar que conforme se avance en su construcción (lo que significa que se va a profundizar  en el entendimiento y acercamiento a los datos), deba regresar a la fase uno a realizar los ajustes pertinentes,  lo mismo pasará en el desarrollo de la fase tres la cuál es la preparación de los datos.
 Para ubicarnos en que paso vamos, presentamos nuevamente la siguiente figura que muestra las fases integrantes de la metodología.

Fases de CRISP-DM: Entendimiento de datos
El entendimiento de datos  es la segunda fase de la CRISP-DM y comprende los siguientes puntos:

1.       Recolección inicial de datos

2.       Descripción de datos

3.       Exploración de datos

4.       Validación de la calidad de datos

Esta fase es también al igual que la fase uno, una de las más importantes y requiere que todos los involucrados estén de acuerdo en los puntos que la conforman.
Aplicando la metodología al piloto.
Elaboremos ahora un esquema  que le permita darse una idea de que debe de hacer y a que debe de llegar en cada uno de estos pasos.

Pasos en el entendimiento de los datos
1.       Recolección inicial de datos
En este paso se va a seleccionar el conjunto de datos sobre los cuáles se trabajará para alcanzar las metas, alcances y objetivos fijados en la fase uno.

No basta con determinar el conjunto de datos y hacer un listado de aquellos datos que son requeridos. Es necesario analizar estos datos y ver cómo están conformados, su procedencia, cómo y a través de qué método se pondrá el dato a disposición de la solución de BI, frecuencias, es decir cada cuando cambia o se obtiene el dato,  reglas de negocio asociadas con el dato, por ejemplo “el costo de mano de obra no puede rebasar el 20% del costo de producción”, trasformaciones que sufra o integración con otros datos, dependencias o relaciones entre datos, y cualquier otro evento propio de la naturaleza de su negocio que afecte o se relacione con el dato en cuestión.

A continuación, describimos y aplicamos al prototipo algunos de estos puntos


Catalogo/Listado de datos
Selección del conjunto de datos que permitirá cumplir los objetivos citados en la fase uno, es probable que esta selección modifique el alcance del proyecto.

Para nuestro piloto:
Clientes, datos del cliente (sexo, edad, etc.)
Productos ( Marcas, tipos, categorías , etc)
Descriptivos de productos (Tallas , colores , costo, etc)
Promociones (descuento, frecuencia, meses sin intereses, etc.)
Tienda (sucursal, zona, etc.)
Tipo de pago (efectivo, tarjeta, )



Fuentes
Origen del dato para cada dato.

Para el piloto: en los datos la mayoría en archivos XLS, y otros no existen hay que arar catálogos.

Reglas de negocio, trasformaciones
Para cada dato realizar un entendimiento adecuado del negocio y de los datos.

Para el piloto:
Los productos que sean nuevos no pueden tener descuento.
Los productos de ciertas marcas solo entran a meses sin intereses.
Se acepta pago con tarjeta a partir de cierta cantidad de dinero.
Se solicita mercancía hasta agotar el 75 % de la existencia
Etc.…


Integración
Verificar si un dato es el resultado de la integración de varios. Ej. la utilidad es la integración de la utilidad de todas las sucursales.

Métodos
Para cada dato verificar como va a llegar ese dato a la solución.

Para el piloto: pasar el/los archivos xls a una base de datos diseñada y modelada para la solución de BI.

Supuestos, restricciones
Verificar si existen supuestos en la información y de preferencia solo tomar información existente, comprometida y real.

La información que se pretende conseguir muchas veces no es factible conseguirla, por lo tanto retrasa y desajusta al  proyecto.


2.       Descripción de los datos


Para cada uno de los datos seleccionados es necesario describirlo en términos del formato de los datos, la cantidad de datos (por ejemplo, el número de registros y campos en cada tabla), las claves de los campos.

Ej. Cliente
Tipo de dato: Alfanumérico
Número de registros(clientes registrados) : 5,000
Clave de identificación:  número de cliente
Campos relacionados : 15
Identificación de campos relacionados: nombre, nivel de cliente, dirección,…




Exploración de datos
Para el conjunto de datos es deseable verificar la existencia de relaciones y dependencias entre ellos determinadas por el negocio ó intrínsecas a la naturaleza de los datos, previo a la construcción de la solución de BI.

Esta labor puede realizarse mediante la consulta, visualización y  reportes. Es posible bajo un análisis simple determinar las relaciones del atributo clave, resultados de agregaciones simples, y análisis estadísticos básicos.

Estos análisis pueden abordar directamente los objetivos de minería de datos plasmados en la fase uno; y pueden contribuir a mejorar la descripción de los datos, los informes de calidad, las necesidades de transformación y otros pasos necesarios en la siguiente fase de  la preparación de datos.

Ej. Descuento en zapatos > 20% à compras >2 pares por cliente.
     Color más vendido, talla más solicitada. Etc.
     

Validación de la calidad de datos
La completes y congruencia de los datos son dos factores de éxito en el desarrollo del proyecto. Las técnicas y algoritmos de minería de datos permiten dar un tratamiento a la información faltante o incompleta. Es importante examinar la calidad de los datos en este sentido para tomar los criterios y decisiones sobre el tratamiento y resolución tanto de las excepciones como  de las anomalías que se presenten en la información.


En el siguiente artículo examinaremos la tercera fase de CRISP- DM, acoplándola de igual manera al desarrollo de nuestro piloto.

 Referencia CRISP-DM:
1. Pete Chapman (NCR), Julian Clinton (SPSS), Randy Kerber (NCR),Thomas Khabaza (SPSS), Thomas Reinartz (DaimlerChrysler),Colin Shearer (SPSS) and Rüdiger Wirth (DaimlerChrysler). CRISP-DM 1.0. 1999,2000.


Copyright © 2012 Dafne Rosso Pelayo. Todos los derechos reservados.

viernes, 15 de junio de 2012

1.32 Metodología para proyectos de Inteligencia de Negocio (BI).

DCC. Dafne Rosso Pelayo
La inteligencia de negocio en la empresa, sólo puede lograrse mediante la adopción de medidas para alcanzarla.


En el artículo anterior platicamos sobre los riesgos involucrados en los proyectos de BI ocasionados por el desconocimiento de la tecnología y por emplear esquemas de desarrollos propios de sistemas tradicionales.
En este artículo iniciaremos la construcción de un prototipo empleando una metodología para proyectos que emplean minería de datos y empleando una herramienta gratuita de BI.

¿Por dónde empezar?

Como comentamos en el artículo anterior, es necesario controlar los cambios, los recursos, los costos, y  las expectativas durante el desarrollo del proyecto. La construcción de un prototipo puede aclarar, resolver y ajustar el alcance y los objetivos  que se pueden lograr con la tecnología de BI, si el resultado del prototipo es positivo, pude incurrir en la compra de una herramienta o el desarrollo del  proyecto con alcances y objetivos más realistas.
Para comenzar el prototipo  presentaremos la metodología que emplearemos en su construcción: La metodología  CRISP-DM (Cross Industry Standard Process for Data mining),  propia de aquellos proyectos que emplean minería de datos o sistemas inteligentes en su desarrollo.
CRISP-DM, incluye dentro de sus fases las fases típicas de un proyecto, las tareas relacionadas con cada fase y una explicación de las relaciones entre estas tareas. CRISP-DM puede ser usada como un modelo de referencia que ofrece una visión general del ciclo de vida de los proyecto que emplean sistemas inteligentes ya sean técnicas de  minería de datos, aprendizaje o análisis avanzados.

La siguiente figura muestra las fases que componen la metodología.


El modelo consta de seis fases. La secuencia de las fases no es obligatoria ni rígida. La interacción entre las fases se da de acuerdo a la naturaleza, ritmo y avance  del proyecto. La interacción puede ser en cualquier sentido y el modelo es completamente adaptable al proyecto de BI.

Fases de CRISP-DM: Entendimiento del negocio

El entendimiento del negocio es la primera fase de la CRISP-DM y comprende los siguientes puntos:

1.       Determinar los objetivos del negocio
Antecedentes
Objetivos del negocio
Criterios de éxito

2.       Situación Actual
Inventario de recursos
Requerimientos
Supuestos, restricciones, riesgos y contingencias
                Terminología
                Costos y beneficios

3.       Determinar las metas de la minería de datos
Metas de la minería de datos
Criterio de éxito de la minería de datos

4.       Generar el plan de trabajo
Plan del proyecto inicial
Inventario de técnicas y herramientas

Esta fase es una de las más importantes y requiere que todos los involucrados estén de acuerdo en los puntos que la conforman.

Aplicando la metodología al piloto.

Las fases correspondientes al entendimiento del negocio y el entendimiento de los datos son las más importantes en la preparación del proyecto. Es posible regresar a ajustar detalles a estas fases de acuerdo a los resultados que se obtengan en la preparación de datos.


Determinar los objetivos del negocio
Antecedentes
Planteamiento del contexto (las situaciones, problemática etc.), tanto  anterior como actual de la empresa. Incluyendo los eventos o situaciones que originan y justifican la necesidad de efectuar el proyecto.

Eje.(resumiendo) En el piloto: Las ventas no han sido las esperadas en los años anteriores y el inventario no es óptimo.
Objetivos del negocio
Incrementar las ventas
Incrementar utilidades
Optimizar los inventarios
Criterios de éxito
Realizar un entendimiento adecuado del negocio y de los datos.
Contar con el patrocinio de los directores


Situación Actual
Inventario de recursos
No hay software de BI
Una desarrollador ( técnico de TI)
Gerente y personal de apoyo
Red local
Internet
Requerimientos
Segmentar clientes,
Incrementar ventas,
Eliminar productos que no reditúan un beneficio económico,
Permitir un seguimiento de las ventas.
Supuestos, restricciones, riesgos y contingencias
Ver artículo anterior (art 30).
Terminología

Costos y beneficios
Pueden ser estimados después del prototipo


Determinar las metas de la minería de datos
Metas de la minería de datos
Segmentar clientes,
comportamiento de venta,
pronósticos de ventas a futuro
Criterio de éxito de la minería de datos
Calidad de los datos
Entendimiento de los datos exitoso
Supervisión de los resultados parciales


Generar el plan de trabajo
Plan del proyecto inicial
Puede ser el plan de trabajo del prototipo
Inventario de técnicas y herramientas
En mi opinión aquí hay que regresar una vez que se conoce la naturaleza de los datos.



En el siguiente artículo examinaremos la siguiente fase de CRISP- DM, acoplándola de igual manera al desarrollo de nuestro piloto.

Copyright © 2012 Dafne Rosso Pelayo. Todos los derechos reservados.

martes, 5 de junio de 2012

1.31 El riesgo de proyectos de Inteligencia de Negocio (BI) en mi Empresa.

En el artículo anterior presentamos una serie de preguntas enfocadas a determinar si necesita o no Inteligencia de Negocio en su empresa, y si ya la tiene, poder verificar cuál es el grado de madurez en sus soluciones de BI.
En este artículo platicaremos sobre los riesgos involucrados en los proyectos de BI.

Desconocimiento de las capacidades de BI.

Como comentamos en el artículo anterior, la toma de decisiones en las empresas independientemente del giro, se realiza basándose en información, es por eso, que en muchos casos el desconocimiento de la tecnología emergente, cómo actúa ésta sobre la información, sus implicaciones, sus riesgos, y sus costos entre otros, hacen dudar al dueño de la información en implementar o no las soluciones que le ofrece la nueva tecnología a pesar de las grandes ventajas que promete brindar.
En el caso de sistemas inteligentes y particularizando en inteligencia de negocio (BI), existe un enorme desconocimiento en el área, aún entre las personas que trabajan en TI. Los usuarios finales no se encuentran familiarizados con la terminología, las herramientas, las técnicas, y algoritmos  alrededor de BI, y no solamente los usuarios finales, la TI el día de hoy es tan grande y especializada que muchas veces técnicos en TI, o telecomunicaciones, desarrolladores, etc. desconocen también el ambiente de BI.
En otros campos de TI, no pasa lo mismo, en las empresas es común hablar de sistemas contables, ERP, CRM, etc.,  pero no es común hablar de sistemas inteligentes o sistemas que apliquen técnicas o herramientas inteligentes para brindar soluciones.


Los sistemas inteligentes no son nuevos, las técnicas de procesamiento de lenguaje natural empleadas ahora tan comúnmente, datan de los años 50’s, no fue hasta que las técnicas de búsqueda con modelos como el SML (Statistical Models Lenguajes) se profundizaron en los 80’s y se empezó a difundir su uso enormemente  en el WEB,  su evolución permitió incorporar nuevas técnicas en el rastreo de redes sociales, reconocimiento de voz y minería de texto, entre otros. Por otro lado las técnicas de minería de datos, análisis avanzados, técnicas predictivas también tienen un periodo de maduración de décadas.

Riesgo en los proyectos de BI.
Entonces,  si las técnicas empleadas no son nuevas

¿Por qué el riesgo es alto?
¿Por qué existe tanto desconocimiento?

La mediana y pequeña empresa nos hemos estancado (y en mi opinión también en las grandes empresas en México) en la década de los 90’s,  cuando el desarrollo de proyectos de inteligencia de negocio  giraban solamente alrededor de almacenes de información y análisis OLAP,  seguimos empleando las mismas antiguas técnicas de modelaje, construcción, administración y planeación de proyectos de TI aplicadas a proyectos de BI. Eso es por un desconocimiento del área e implica un gran riesgo en el desarrollo de este tipo de proyectos.


Información en BI

La siguiente figura muestra algunos de los riesgos más comunes a los proyectos de inteligencia de negocio.

Algunos Riesgos en proyectos de BI

Por desconocimiento nos referimos principalmente al desconocimiento de la tecnología, metodologías, y mejores prácticas. Los costos refieren impactos económicos en la empresa por tecnología o capacitación.
De los riesgos comunes a todos los proyectos de TI como lo son la mala planeación, el contar con recursos adecuados, el constante cambio en los requerimientos, no vamos a tratar en este artículo.

¿Por qué fracasan los grandes proyectos de BI?

Las soluciones de inteligencia de negocio integrales contemplan un análisis de información horizontal de la empresa que permite ver la perspectiva de la información desde sus diferentes ángulos y áreas, esto involucra desarrollar almacenes de datos conocidos como data warehouses  y emplear suites  de inteligencia de negocio para explotarlos.
Los alcances y objetivos asignados a este tipo de proyectos suelen ser demasiado ambiciosos y por lo tanto la mayoría de los proyectos de BI que involucran grandes almacenes de datos fracasan. El alcance  en este tipo de proyectos suele estar mal plantado.
Como hemos planteado en este blog (art 1, art 2, entre varios) es necesario un cambio de paradigma, un cambio de estrategia, un cambio de conducción de los proyectos de BI.
Las áreas involucradas son muchas, los cruces de información extensos y complejos, el personal involucrado, la duplicidad de fuentes, la falta de calidad en la información, la diversidad de bases de datos, etc.,  son el pan de cada día de las personas que se nos dedicamos a este tipo de proyectos.
Para obtener resultados diferentes hay que actuar diferente. !!!!!
Empecemos por emplear una metodología distinta y no una tradicional para proyectos de TI, usemos metodologías ágiles, alcances cortos, objetivos crecientes (incrementales), resultados controlados y mucha, mucha interacción entre las fases.
Es necesario controlar los cambios, los recursos, los costos, y  las expectativas durante el desarrollo del proyecto, como hemos propuesto en varias ocasiones existe una gran gama de herramientas de BI gratuitas. La construcción de un prototipo puede aclarar muchas dudas tanto a los usuarios como al equipo de desarrollo, sobre todo si no conocen lo que esta tecnología ofrece, si el resultado del prototipo es positivo, pude incurrir en la compra de una herramienta o el desarrollo de su proyecto con alcances y objetivos más realistas.
En los siguientes artículos emplearemos una herramienta gratuita en la construcción de un prototipo establecido para una solución predictiva de BI.
Copyright © 2012 Dafne Rosso Pelayo. Todos los derechos reservados.