jueves, 14 de febrero de 2013

1.34 Metodología para proyectos de Inteligencia de Negocio (BI). Tercera Parte

Dra. Dafne Rosso Pelayo
La inteligencia de negocio en la empresa, sólo puede lograrse mediante la adopción de medidas para alcanzarla.


En el artículo anterior abordamos la segunda fase de CRISP-DM (Cross Industry Standard Process for Data mining) (1)  y continuamos con la construcción de un prototipo de BI.
En este artículo continuaremos describiendo la metodología CRISP-DM, esta vez plantearemos su tercera fase relacionada con la preparación de los datos.

Preparando  los datos
Repasando, CRISP-DM es una metodología “ágil” iterativa, las fases que maneja están  relacionadas con su fase predecesora y/o sucesora de tal manera que el cambio se maneja  con menores impactos en comparación con las metodologías tradicionales.  La tercera fase “Preparación de Datos” está ampliamente relacionada con la fase dos “Entendimiento de los datos”, por lo tanto es altamente probable que al realizar la preparación de los datos se deba regresar a la fase anterior a entender o definir nuevamente algún dato que fue mal interpretado o que se incorpora.
 La siguiente figura muestra las fases integrantes de la metodología.



La preparación de los datos es una parte crítica dentro del análisis avanzado de información, ya sea que se trate de efectuar un análisis estadístico, un análisis de minería de datos o textos o bien para la construcción de un sistema de descubrimiento de conocimiento.
En el artículo 7  presentamos una diferencia importantísima entre los que es la minería de datos y un sistema de descubrimiento de conocimiento en las bases de datos. Un sistema de descubrimiento de conocimiento en las bases de datos incluye la preparación de los  datos, la extracción de patrones de los datos (minería de datos) y la preparación de los modelos predictivos y/o de aprendizaje, mientras que la minería de datos se refiere sólo a la extracción de patrones en los datos.
Figura 2. Sistema de descubrimiento de conocimiento en las bases de datos

La fase de preparación de datos es un actor de éxito, sin ella no puede generarse satisfactoriamente ningún análisis avanzado o sistema inteligente.
La preparación de los datos consta de: validación, transformación  y selección.
Figura 3. Preparación de los datos

Puede consultar el artículo 7  para la definición y  contenido de cada uno de estos pasos.  En este artículo veremos la preparación de los datos desde el punto de vista de CRISP-DM.

Fases de CRISP-DM: Preparación de datos
La preparación de datos  es la tercera fase de la CRISP-DM y comprende los siguientes puntos:

1.      Selección de datos
2.      Limpieza de datos
3.      Construcción de Datos
4.      Integración de datos
5.      Formato de datos

Esta fase es también al igual que la fase uno y dos, es  importante y requiere que todos los involucrados estén de acuerdo en los puntos que la conforman.
Aplicando la metodología al piloto.
Elaboremos ahora un esquema  que le permita darse una idea de que debe de hacer y a que debe de llegar en cada uno de estos pasos.

Pasos en la preparación de los datos
1.       Selección de datos
En este paso se van a seleccionar los conjunto de datos sobre los cuáles se aplicarán las técnicas de análisis avanzado para alcanzar las metas, alcances y objetivos fijados en la fase uno.

Es probable que se determinen no sólo uno sino varios conjuntos de datos,  a través de  realizar diferentes  combinaciones de los atributos que fueron estudiados e incluidos en la fase dos.

A continuación describimos y aplicamos al prototipo algunos de estos puntos
Ejemplo


Para nuestro piloto generaremos varios conjuntos de datos en los cuales está incluida: la marca, el precio y la tienda.
Esto nos permitirá realizar segmentos del mercado y detectar patrones de comportamiento solo para ciertos datos y no para todo el conjunto.
Segmentar clientes
Selección del conjunto de datos que permitirá cumplir los objetivos citados en la fase uno, es probable que esta selección modifique el alcance del proyecto.

Para nuestro piloto:
Clientes, datos del cliente (sexo, edad, etc.)
Productos (Marcas, tipos, categorías, etc.)



Crear nuevas promociones
Para nuestro piloto:
Segmentos de Clientes generados.
Productos (Marcas, tipos, categorías, etc.)
Descriptivos de productos (Tallas, colores, costo, etc.)
Promociones (descuento, frecuencia, meses sin intereses, etc.)
Tienda (sucursal, zona, etc.)
Tipo de pago (efectivo, tarjeta, )

Elasticidad en el precio de las promociones
Datos de ventas
Resultados anteriores,
Etc...
Tantos grupos como sean necesarios según sus metas.









2.       Limpieza de datos
Es necesario negociar y determinar cuál será el tratamiento que se empleará para aquellos datos incompletos, omitidos, erróneos, etc.

Es importante involucrar al dueño de los datos en las decisiones de limpieza para no generar criterios de remplazo erróneos y que ocasionen desviaciones o mayor dispersión en los análisis estadísticos.
     
En nuestro piloto
Para datos omitidos o erróneos: sustituir las características del producto por aquellos que presenten el valor más repetido (moda de la serie).
No considerar al cliente si faltan ciertos datos personales.

Para datos numéricos: Colocar el precio promedio del conjunto del mismo tipo en los valores omitidos.
Etc.


3.       Construcción  de datos

En los análisis estadísticos ó de minería de datos, para detectar tendencias, patrones de comportamiento, grupos, etc... , es frecuente que se incluyan datos que no fueron considerados en la selección inicial y que incluso pueden no formar parte del negocio. Se trata de incorporar datos (muchas veces del exterior) que proporcionen más información o ayuden a afinar los análisis. Por ejemplo. En el artículo 25 platicamos sobre la venta de café, la venta de café tiene una fuerte correlación con otras variables externas, una de ellas es la temperatura ambiente, mientras más baje la temperatura  mayor será la venta de café.

Para realizar un pronóstico predictivo más asertivo es indispensable añadir nuevos datos que aporten valor al análisis.

Las reglas de negocio, las trasformaciones y variantes de los datos en el negocio deben de ser consideradas en esta parte.

Para el piloto:

Los productos que sean nuevos no pueden tener descuento. -> Nuevo (0 o 1)
Los productos de ciertas marcas solo entran a meses sin intereses.-> TIPO_PROMO (1, 2,...,N)
Se acepta pago con tarjeta a partir de cierta cantidad de dinero. ->TARJETA(0 /1)
Etc.…



En nuestro ejemplo
Incorporaremos varias variables, entre ellas,
Día festivo:  si se trata de un día festivo (0 , 1)


4. Integración de datos
Los datos preparados en los pasos anteriores muchas veces serán integrados (unidos) para su análisis en campos nuevos.

5. Formato de datos
De ser necesario hacer un reformateo a los datos. En términos de análisis para poder realizarlos es más en algunos casos necesario asignar claves numéricas a los datos nominales que procesar textos.

Por ejemplo, en lugar de femenino /masculino podemos usar  1/0




En el siguiente artículo examinaremos la cuarta fase de CRISP- DM, acoplándola de igual manera al desarrollo de nuestro piloto.

1. Pete Chapman (NCR), Julian Clinton (SPSS), Randy Kerber (NCR),Thomas Khabaza (SPSS), Thomas Reinartz (DaimlerChrysler),Colin Shearer (SPSS) and Rüdiger Wirth (DaimlerChrysler). CRISP-DM 1.0. 1999,2000.


Copyright © 2013 Dafne Rosso Pelayo. Todos los derechos reservados.

viernes, 30 de noviembre de 2012

1.33 Metodología para proyectos de Inteligencia de Negocio (BI). Segunda Parte

Dra. Dafne Rosso Pelayo
La inteligencia de negocio en la empresa, sólo puede lograrse mediante la adopción de medidas para alcanzarla.


En el artículo anterior iniciamos la construcción de un prototipo de BI empleando CRISP-DM (Cross Industry Standard Process for Data mining) (1), una metodología para proyectos que emplean minería de datos particularizando en la primera fase de la metodología concerniente al entendimiento del negocio.
En este artículo continuaremos describiendo la metodología CRISP-DM, esta vez plantearemos su segunda fase relacionada con el entendimiento de los datos,  permítanme nuevamente comentar la importancia que tienen las primeras dos fases para el éxito del desarrollo de las soluciones de BI.

Entendiendo los datos
Como comentamos en el artículo anterior, la metodología que empleamos es una metodología iterativa, dado que es necesario controlar los cambios, los recursos, los costos, y  las expectativas durante el desarrollo de cualquier proyecto de BI, el uso de una metodología secuencial tradicional con iteraciones rígidas, aumenta el riesgo en el  desarrollo, el término y el éxito del proyecto.
Tanto la fase uno (Entendimiento del negocio) como las siguientes dos fases (Entendimiento de datos y Preparación de datos) se encuentran  en gran medida relacionadas, de manera que la iteración entre ellas va a ser grande, esto es, por ejemplo,  un cambio en el entendimiento de los datos puede propiciar un cambio de alcance.
Al estar estas fases muy relacionadas es casi seguro que el desarrollo de la segunda  fase va a implicar que conforme se avance en su construcción (lo que significa que se va a profundizar  en el entendimiento y acercamiento a los datos), deba regresar a la fase uno a realizar los ajustes pertinentes,  lo mismo pasará en el desarrollo de la fase tres la cuál es la preparación de los datos.
 Para ubicarnos en que paso vamos, presentamos nuevamente la siguiente figura que muestra las fases integrantes de la metodología.

Fases de CRISP-DM: Entendimiento de datos
El entendimiento de datos  es la segunda fase de la CRISP-DM y comprende los siguientes puntos:

1.       Recolección inicial de datos

2.       Descripción de datos

3.       Exploración de datos

4.       Validación de la calidad de datos

Esta fase es también al igual que la fase uno, una de las más importantes y requiere que todos los involucrados estén de acuerdo en los puntos que la conforman.
Aplicando la metodología al piloto.
Elaboremos ahora un esquema  que le permita darse una idea de que debe de hacer y a que debe de llegar en cada uno de estos pasos.

Pasos en el entendimiento de los datos
1.       Recolección inicial de datos
En este paso se va a seleccionar el conjunto de datos sobre los cuáles se trabajará para alcanzar las metas, alcances y objetivos fijados en la fase uno.

No basta con determinar el conjunto de datos y hacer un listado de aquellos datos que son requeridos. Es necesario analizar estos datos y ver cómo están conformados, su procedencia, cómo y a través de qué método se pondrá el dato a disposición de la solución de BI, frecuencias, es decir cada cuando cambia o se obtiene el dato,  reglas de negocio asociadas con el dato, por ejemplo “el costo de mano de obra no puede rebasar el 20% del costo de producción”, trasformaciones que sufra o integración con otros datos, dependencias o relaciones entre datos, y cualquier otro evento propio de la naturaleza de su negocio que afecte o se relacione con el dato en cuestión.

A continuación, describimos y aplicamos al prototipo algunos de estos puntos


Catalogo/Listado de datos
Selección del conjunto de datos que permitirá cumplir los objetivos citados en la fase uno, es probable que esta selección modifique el alcance del proyecto.

Para nuestro piloto:
Clientes, datos del cliente (sexo, edad, etc.)
Productos ( Marcas, tipos, categorías , etc)
Descriptivos de productos (Tallas , colores , costo, etc)
Promociones (descuento, frecuencia, meses sin intereses, etc.)
Tienda (sucursal, zona, etc.)
Tipo de pago (efectivo, tarjeta, )



Fuentes
Origen del dato para cada dato.

Para el piloto: en los datos la mayoría en archivos XLS, y otros no existen hay que arar catálogos.

Reglas de negocio, trasformaciones
Para cada dato realizar un entendimiento adecuado del negocio y de los datos.

Para el piloto:
Los productos que sean nuevos no pueden tener descuento.
Los productos de ciertas marcas solo entran a meses sin intereses.
Se acepta pago con tarjeta a partir de cierta cantidad de dinero.
Se solicita mercancía hasta agotar el 75 % de la existencia
Etc.…


Integración
Verificar si un dato es el resultado de la integración de varios. Ej. la utilidad es la integración de la utilidad de todas las sucursales.

Métodos
Para cada dato verificar como va a llegar ese dato a la solución.

Para el piloto: pasar el/los archivos xls a una base de datos diseñada y modelada para la solución de BI.

Supuestos, restricciones
Verificar si existen supuestos en la información y de preferencia solo tomar información existente, comprometida y real.

La información que se pretende conseguir muchas veces no es factible conseguirla, por lo tanto retrasa y desajusta al  proyecto.


2.       Descripción de los datos


Para cada uno de los datos seleccionados es necesario describirlo en términos del formato de los datos, la cantidad de datos (por ejemplo, el número de registros y campos en cada tabla), las claves de los campos.

Ej. Cliente
Tipo de dato: Alfanumérico
Número de registros(clientes registrados) : 5,000
Clave de identificación:  número de cliente
Campos relacionados : 15
Identificación de campos relacionados: nombre, nivel de cliente, dirección,…




Exploración de datos
Para el conjunto de datos es deseable verificar la existencia de relaciones y dependencias entre ellos determinadas por el negocio ó intrínsecas a la naturaleza de los datos, previo a la construcción de la solución de BI.

Esta labor puede realizarse mediante la consulta, visualización y  reportes. Es posible bajo un análisis simple determinar las relaciones del atributo clave, resultados de agregaciones simples, y análisis estadísticos básicos.

Estos análisis pueden abordar directamente los objetivos de minería de datos plasmados en la fase uno; y pueden contribuir a mejorar la descripción de los datos, los informes de calidad, las necesidades de transformación y otros pasos necesarios en la siguiente fase de  la preparación de datos.

Ej. Descuento en zapatos > 20% à compras >2 pares por cliente.
     Color más vendido, talla más solicitada. Etc.
     

Validación de la calidad de datos
La completes y congruencia de los datos son dos factores de éxito en el desarrollo del proyecto. Las técnicas y algoritmos de minería de datos permiten dar un tratamiento a la información faltante o incompleta. Es importante examinar la calidad de los datos en este sentido para tomar los criterios y decisiones sobre el tratamiento y resolución tanto de las excepciones como  de las anomalías que se presenten en la información.


En el siguiente artículo examinaremos la tercera fase de CRISP- DM, acoplándola de igual manera al desarrollo de nuestro piloto.

 Referencia CRISP-DM:
1. Pete Chapman (NCR), Julian Clinton (SPSS), Randy Kerber (NCR),Thomas Khabaza (SPSS), Thomas Reinartz (DaimlerChrysler),Colin Shearer (SPSS) and Rüdiger Wirth (DaimlerChrysler). CRISP-DM 1.0. 1999,2000.


Copyright © 2012 Dafne Rosso Pelayo. Todos los derechos reservados.