viernes, 30 de noviembre de 2012

1.33 Metodología para proyectos de Inteligencia de Negocio (BI). Segunda Parte

Dra. Dafne Rosso Pelayo
La inteligencia de negocio en la empresa, sólo puede lograrse mediante la adopción de medidas para alcanzarla.


En el artículo anterior iniciamos la construcción de un prototipo de BI empleando CRISP-DM (Cross Industry Standard Process for Data mining) (1), una metodología para proyectos que emplean minería de datos particularizando en la primera fase de la metodología concerniente al entendimiento del negocio.
En este artículo continuaremos describiendo la metodología CRISP-DM, esta vez plantearemos su segunda fase relacionada con el entendimiento de los datos,  permítanme nuevamente comentar la importancia que tienen las primeras dos fases para el éxito del desarrollo de las soluciones de BI.

Entendiendo los datos
Como comentamos en el artículo anterior, la metodología que empleamos es una metodología iterativa, dado que es necesario controlar los cambios, los recursos, los costos, y  las expectativas durante el desarrollo de cualquier proyecto de BI, el uso de una metodología secuencial tradicional con iteraciones rígidas, aumenta el riesgo en el  desarrollo, el término y el éxito del proyecto.
Tanto la fase uno (Entendimiento del negocio) como las siguientes dos fases (Entendimiento de datos y Preparación de datos) se encuentran  en gran medida relacionadas, de manera que la iteración entre ellas va a ser grande, esto es, por ejemplo,  un cambio en el entendimiento de los datos puede propiciar un cambio de alcance.
Al estar estas fases muy relacionadas es casi seguro que el desarrollo de la segunda  fase va a implicar que conforme se avance en su construcción (lo que significa que se va a profundizar  en el entendimiento y acercamiento a los datos), deba regresar a la fase uno a realizar los ajustes pertinentes,  lo mismo pasará en el desarrollo de la fase tres la cuál es la preparación de los datos.
 Para ubicarnos en que paso vamos, presentamos nuevamente la siguiente figura que muestra las fases integrantes de la metodología.

Fases de CRISP-DM: Entendimiento de datos
El entendimiento de datos  es la segunda fase de la CRISP-DM y comprende los siguientes puntos:

1.       Recolección inicial de datos

2.       Descripción de datos

3.       Exploración de datos

4.       Validación de la calidad de datos

Esta fase es también al igual que la fase uno, una de las más importantes y requiere que todos los involucrados estén de acuerdo en los puntos que la conforman.
Aplicando la metodología al piloto.
Elaboremos ahora un esquema  que le permita darse una idea de que debe de hacer y a que debe de llegar en cada uno de estos pasos.

Pasos en el entendimiento de los datos
1.       Recolección inicial de datos
En este paso se va a seleccionar el conjunto de datos sobre los cuáles se trabajará para alcanzar las metas, alcances y objetivos fijados en la fase uno.

No basta con determinar el conjunto de datos y hacer un listado de aquellos datos que son requeridos. Es necesario analizar estos datos y ver cómo están conformados, su procedencia, cómo y a través de qué método se pondrá el dato a disposición de la solución de BI, frecuencias, es decir cada cuando cambia o se obtiene el dato,  reglas de negocio asociadas con el dato, por ejemplo “el costo de mano de obra no puede rebasar el 20% del costo de producción”, trasformaciones que sufra o integración con otros datos, dependencias o relaciones entre datos, y cualquier otro evento propio de la naturaleza de su negocio que afecte o se relacione con el dato en cuestión.

A continuación, describimos y aplicamos al prototipo algunos de estos puntos


Catalogo/Listado de datos
Selección del conjunto de datos que permitirá cumplir los objetivos citados en la fase uno, es probable que esta selección modifique el alcance del proyecto.

Para nuestro piloto:
Clientes, datos del cliente (sexo, edad, etc.)
Productos ( Marcas, tipos, categorías , etc)
Descriptivos de productos (Tallas , colores , costo, etc)
Promociones (descuento, frecuencia, meses sin intereses, etc.)
Tienda (sucursal, zona, etc.)
Tipo de pago (efectivo, tarjeta, )



Fuentes
Origen del dato para cada dato.

Para el piloto: en los datos la mayoría en archivos XLS, y otros no existen hay que arar catálogos.

Reglas de negocio, trasformaciones
Para cada dato realizar un entendimiento adecuado del negocio y de los datos.

Para el piloto:
Los productos que sean nuevos no pueden tener descuento.
Los productos de ciertas marcas solo entran a meses sin intereses.
Se acepta pago con tarjeta a partir de cierta cantidad de dinero.
Se solicita mercancía hasta agotar el 75 % de la existencia
Etc.…


Integración
Verificar si un dato es el resultado de la integración de varios. Ej. la utilidad es la integración de la utilidad de todas las sucursales.

Métodos
Para cada dato verificar como va a llegar ese dato a la solución.

Para el piloto: pasar el/los archivos xls a una base de datos diseñada y modelada para la solución de BI.

Supuestos, restricciones
Verificar si existen supuestos en la información y de preferencia solo tomar información existente, comprometida y real.

La información que se pretende conseguir muchas veces no es factible conseguirla, por lo tanto retrasa y desajusta al  proyecto.


2.       Descripción de los datos


Para cada uno de los datos seleccionados es necesario describirlo en términos del formato de los datos, la cantidad de datos (por ejemplo, el número de registros y campos en cada tabla), las claves de los campos.

Ej. Cliente
Tipo de dato: Alfanumérico
Número de registros(clientes registrados) : 5,000
Clave de identificación:  número de cliente
Campos relacionados : 15
Identificación de campos relacionados: nombre, nivel de cliente, dirección,…




Exploración de datos
Para el conjunto de datos es deseable verificar la existencia de relaciones y dependencias entre ellos determinadas por el negocio ó intrínsecas a la naturaleza de los datos, previo a la construcción de la solución de BI.

Esta labor puede realizarse mediante la consulta, visualización y  reportes. Es posible bajo un análisis simple determinar las relaciones del atributo clave, resultados de agregaciones simples, y análisis estadísticos básicos.

Estos análisis pueden abordar directamente los objetivos de minería de datos plasmados en la fase uno; y pueden contribuir a mejorar la descripción de los datos, los informes de calidad, las necesidades de transformación y otros pasos necesarios en la siguiente fase de  la preparación de datos.

Ej. Descuento en zapatos > 20% à compras >2 pares por cliente.
     Color más vendido, talla más solicitada. Etc.
     

Validación de la calidad de datos
La completes y congruencia de los datos son dos factores de éxito en el desarrollo del proyecto. Las técnicas y algoritmos de minería de datos permiten dar un tratamiento a la información faltante o incompleta. Es importante examinar la calidad de los datos en este sentido para tomar los criterios y decisiones sobre el tratamiento y resolución tanto de las excepciones como  de las anomalías que se presenten en la información.


En el siguiente artículo examinaremos la tercera fase de CRISP- DM, acoplándola de igual manera al desarrollo de nuestro piloto.

 Referencia CRISP-DM:
1. Pete Chapman (NCR), Julian Clinton (SPSS), Randy Kerber (NCR),Thomas Khabaza (SPSS), Thomas Reinartz (DaimlerChrysler),Colin Shearer (SPSS) and Rüdiger Wirth (DaimlerChrysler). CRISP-DM 1.0. 1999,2000.


Copyright © 2012 Dafne Rosso Pelayo. Todos los derechos reservados.