Dra. Dafne Rosso Pelayo
La inteligencia de negocio en la empresa, sólo puede lograrse mediante la adopción de medidas para alcanzarla.
En el artículo anterior abordamos la segunda fase de CRISP-DM (Cross Industry Standard Process for Data mining) (1) y continuamos con la construcción de un prototipo de BI.
En este artículo continuaremos describiendo la metodología CRISP-DM, esta vez plantearemos su tercera fase relacionada con la preparación de los datos.
Preparando los datos
Repasando, CRISP-DM es una metodología “ágil” iterativa, las fases que maneja están relacionadas con su fase predecesora y/o sucesora de tal manera que el cambio se maneja con menores impactos en comparación con las metodologías tradicionales. La tercera fase “Preparación de Datos” está ampliamente relacionada con la fase dos “Entendimiento de los datos”, por lo tanto es altamente probable que al realizar la preparación de los datos se deba regresar a la fase anterior a entender o definir nuevamente algún dato que fue mal interpretado o que se incorpora.
La siguiente figura muestra las fases integrantes de la metodología.
La preparación de los datos es una parte crítica dentro del análisis avanzado de información, ya sea que se trate de efectuar un análisis estadístico, un análisis de minería de datos o textos o bien para la construcción de un sistema de descubrimiento de conocimiento.
En el artículo 7 presentamos una diferencia importantísima entre los que es la minería de datos y un sistema de descubrimiento de conocimiento en las bases de datos. Un sistema de descubrimiento de conocimiento en las bases de datos incluye la preparación de los datos, la extracción de patrones de los datos (minería de datos) y la preparación de los modelos predictivos y/o de aprendizaje, mientras que la minería de datos se refiere sólo a la extracción de patrones en los datos.
Figura 2. Sistema de descubrimiento de conocimiento en las bases de datos
La fase de preparación de datos es un actor de éxito, sin ella no puede generarse satisfactoriamente ningún análisis avanzado o sistema inteligente.
La preparación de los datos consta de: validación, transformación y selección.
Figura 3. Preparación de los datos
Puede consultar el artículo 7 para la definición y contenido de cada uno de estos pasos. En este artículo veremos la preparación de los datos desde el punto de vista de CRISP-DM.
Fases de CRISP-DM: Preparación de datos
La preparación de datos es la tercera fase de la CRISP-DM y comprende los siguientes puntos:
1. Selección de datos
2. Limpieza de datos
3. Construcción de Datos
4. Integración de datos
5. Formato de datos
Esta fase es también al igual que la fase uno y dos, es importante y requiere que todos los involucrados estén de acuerdo en los puntos que la conforman.
Aplicando la metodología al piloto.
Elaboremos ahora un esquema que le permita darse una idea de que debe de hacer y a que debe de llegar en cada uno de estos pasos.
Pasos en la preparación de los datos
| |
1. Selección de datos
| |
En este paso se van a seleccionar los conjunto de datos sobre los cuáles se aplicarán las técnicas de análisis avanzado para alcanzar las metas, alcances y objetivos fijados en la fase uno.
Es probable que se determinen no sólo uno sino varios conjuntos de datos, a través de realizar diferentes combinaciones de los atributos que fueron estudiados e incluidos en la fase dos.
A continuación describimos y aplicamos al prototipo algunos de estos puntos
| |
Ejemplo
| |
Para nuestro piloto generaremos varios conjuntos de datos en los cuales está incluida: la marca, el precio y la tienda.
Esto nos permitirá realizar segmentos del mercado y detectar patrones de comportamiento solo para ciertos datos y no para todo el conjunto.
| |
Segmentar clientes
|
Selección del conjunto de datos que permitirá cumplir los objetivos citados en la fase uno, es probable que esta selección modifique el alcance del proyecto.
Para nuestro piloto:
Clientes, datos del cliente (sexo, edad, etc.)
Productos (Marcas, tipos, categorías, etc.)
|
Crear nuevas promociones
|
Para nuestro piloto:
Segmentos de Clientes generados.
Productos (Marcas, tipos, categorías, etc.)
Descriptivos de productos (Tallas, colores, costo, etc.)
Promociones (descuento, frecuencia, meses sin intereses, etc.)
Tienda (sucursal, zona, etc.)
Tipo de pago (efectivo, tarjeta, )
|
Elasticidad en el precio de las promociones
|
Datos de ventas
Resultados anteriores,
|
Etc...
|
Tantos grupos como sean necesarios según sus metas.
|
2. Limpieza de datos
| |
Es necesario negociar y determinar cuál será el tratamiento que se empleará para aquellos datos incompletos, omitidos, erróneos, etc.
Es importante involucrar al dueño de los datos en las decisiones de limpieza para no generar criterios de remplazo erróneos y que ocasionen desviaciones o mayor dispersión en los análisis estadísticos.
| |
En nuestro piloto
Para datos omitidos o erróneos: sustituir las características del producto por aquellos que presenten el valor más repetido (moda de la serie).
No considerar al cliente si faltan ciertos datos personales.
Para datos numéricos: Colocar el precio promedio del conjunto del mismo tipo en los valores omitidos.
Etc.
| |
3. Construcción de datos
| |
En los análisis estadísticos ó de minería de datos, para detectar tendencias, patrones de comportamiento, grupos, etc... , es frecuente que se incluyan datos que no fueron considerados en la selección inicial y que incluso pueden no formar parte del negocio. Se trata de incorporar datos (muchas veces del exterior) que proporcionen más información o ayuden a afinar los análisis. Por ejemplo. En el artículo 25 platicamos sobre la venta de café, la venta de café tiene una fuerte correlación con otras variables externas, una de ellas es la temperatura ambiente, mientras más baje la temperatura mayor será la venta de café.
Para realizar un pronóstico predictivo más asertivo es indispensable añadir nuevos datos que aporten valor al análisis.
Las reglas de negocio, las trasformaciones y variantes de los datos en el negocio deben de ser consideradas en esta parte.
Para el piloto:
Los productos que sean nuevos no pueden tener descuento. -> Nuevo (0 o 1)
Los productos de ciertas marcas solo entran a meses sin intereses.-> TIPO_PROMO (1, 2,...,N)
Se acepta pago con tarjeta a partir de cierta cantidad de dinero. ->TARJETA(0 /1)
Etc.…
| |
En nuestro ejemplo
Incorporaremos varias variables, entre ellas,
Día festivo: si se trata de un día festivo (0 , 1)
| |
4. Integración de datos
| |
Los datos preparados en los pasos anteriores muchas veces serán integrados (unidos) para su análisis en campos nuevos.
| |
5. Formato de datos
| |
De ser necesario hacer un reformateo a los datos. En términos de análisis para poder realizarlos es más en algunos casos necesario asignar claves numéricas a los datos nominales que procesar textos.
Por ejemplo, en lugar de femenino /masculino podemos usar 1/0
|
En el siguiente artículo examinaremos la cuarta fase de CRISP- DM, acoplándola de igual manera al desarrollo de nuestro piloto.
1. Pete Chapman (NCR), Julian Clinton (SPSS), Randy Kerber (NCR),Thomas Khabaza (SPSS), Thomas Reinartz (DaimlerChrysler),Colin Shearer (SPSS) and Rüdiger Wirth (DaimlerChrysler). CRISP-DM 1.0. 1999,2000.
Copyright © 2013 Dafne Rosso Pelayo. Todos los derechos reservados.