viernes, 4 de febrero de 2011

1.6 Minería de datos aplicada para la Pequeña y Mediana Empresa (2a parte)

DCC. Dafne Rosso Pelayo

La inteligencia de negocio en la empresa, sólo puede lograrse mediante la adopción de medidas para alcanzarla.

Ejemplo de minería de datos
En el art 1.5 comenzamos los preparativos para realizar un análisis avanzado de datos pertenecientes a una PYME dedicada a la venta de juguetes. En este artículo vamos a presentar el uso de una herramienta libre de minería de datos conocida como WEKA. WEKA es un software de minería de datos desarrollado por la Universidad de Waikato y contiene una amplia gama de algoritmos avanzados de aprendizaje para emplearse en análisis de minería de datos.
En este caso de ejemplo de minería de datos usaremos reglas de asociación, también encontrará el término de analíticos avanzados refiriéndose a este tipo de análisis. A continuación muestro un extracto de la tabla que contiene los datos que vamos a analizar:


Tabla 1. Ejemplo de datos tabulares.
Si aún no ha realizado la instalación de la herramienta WEKA, la aplicación la puede encontrar con una búsqueda en la WEB en la página de la Universidad de Waikato.
WEKA es una herramienta muy intuitiva y fácil de usar, lo único que por el momento requiere es seguir los pasos que vamos a ir dando a continuación:
Construyendo el ejemplo paso a paso
Paso número 1: Introducir los datos de nuestro interés.
El primer paso (una vez instalada WEKA) será proporcionar el archivo que contiene los datos a analizar. El formato del archivo que emplearemos en el ejemplo es CSV, basta con grabar el archivo con los datos con este formato. Para introducir el archivo empleamos el botón a la izquierda que dice  Open file (abrir archivo).  Las imágenes podrán variar un poco de acuerdo a la versión del producto que se esté empleando. Una vez proporcionado el archivo la primera pantalla se verá dependiendo de sus datos más o menos así

Figura 1. Pantalla inicial de pre-proceso

Paso número dos: Interpretar la información.
En la pantalla que se muestra en la figura 1, podemos observar: 1) por el lado izquierdo, en forma numerada, el conjunto de atributos o campos que estamos proporcionando en nuestro archivo; 2) un conteo de los elementos pertenecientes a cada atributo y; 3) un gráfico de visualización de los datos que nos permite rápidamente encontrar dependencias a simple vista.
Este gráfico de visualización de datos nos da una asociación o dependencia entre los datos que se encuentran en la tabla y la clase o atributo que se selecciona. En el ejemplo de la figura 2, el atributo que esta seleccionado es Tipo y la clase es: Hora de compra.
Podemos deducir visual y rápidamente cual es la relación que existe entre los tipos de juguetes y la hora de su compra. Las columnas corresponden a las instancias (diferentes valores) del atributo seleccionado, en este caso, tipo de juguete. Los colores corresponden a las instancias de la clase seleccionada, en este caso, Hora de compra.  Para dar un ejemplo de interpretación, la última barra de la gráfica dice: “todos los muñecos de acción se vendieron por la noche”, mientras que la penúltima barra dice “los peluches se venden la mayoría en la tarde y la mañana”.
Paso número tres: generación de reglas de asociación
Para seleccionar un análisis avanzado de tipo asociación de datos la opción correspondiente es “Associate,” que se encuentra en las pestañas en la parte superior de la pantalla (ver Figura 1).
La pantalla que se abrirá será la que muestra la figura 2.  Bajo el botón Choose se encuentran los algoritmos o técnicas que posee WEKA para el tipo de análisis de asociación. El botón Start iniciará el análisis.

Figura 2. Pantalla de técnicas de asociación

Interpretando resultados
El análisis se ejecuta en unos cuantos segundos. A diferencia del ejemplo que dimos en el artículo 1.3, el algoritmo “Apriori” realiza más iteraciones  que las que hubiéramos obtenido de hacer nuestro cálculo manual como en el ejemplo 1.3. (En este caso 11 atributos implica  11 -1 = 10 iteraciones ó conjuntos de datos ó itemsets). Apriori itera hasta que encuentra un grado de confianza adecuado para el número de reglas solicitado. Estos parámetros se encuentran al dado derecho del nombre del algoritmo –N 10 indica 10 reglas que es el default y –C .9 sitúa el mínimo grado aceptado de confianza en .9.  
WEKA con los parámetros por default que emplea se asegura que el grado de confianza de las reglas sea adecuado, independientemente del algoritmo seleccionado. Al igual de que realizará para cada algoritmo, el número de iteraciones necesarias para alcanzar el grado de confianza adecuado, así que no tenemos en este momento que preocuparnos por conocer todos los parámetros de los algoritmos y podemos manejar los defaults de WEKA.
La siguiente figura muestra el resultado de la ejecución.

Figura 3. Resultados de la técnica de asociación

Regla
Tipo de Juguete
Descripción de la regla
Algoritmo : A priori
Bélico = no aplica  -> Energía = No aplica
Cualquier tipo de juguete
Juguetes no bélicos y que no usen pilas
Grado de confianza de 1
(Edad = 4 a 8 años & Bélico = no aplica )-> Energía No aplica
Cualquier tipo de juguete de 4 a 8 años
Juguetes no bélicos y que no usen pilas
(Bélico = no aplica y capacidad2 = efecto sonoro) -> Energía ->No aplica
Cualquier tipo de juguete
Juguetes no bélicos y que tengan efectos de sonido que no usen pilas
Tipo construcción -> Bélico = no aplica & energía = no pilas & capacidad 3= no se mueve , no suena y no habla
Construcción
Los que buscan juguetes no bélicos y que no usen pilas prefieren los juguetes de construcción



Algoritmo : PredictiveApriori
Tipo de pago=12 meses   è Capacidad 2=efecto sonoro
Cualquier tipo de juguete
Quien paga a 12 meses normalmente lleva juguetes de efecto sonoro
Grado de confianza de .98
Tipo=construcción Tipo de pago=contado  è Rango Precio=50-100  
Construcción
Juguetes de construcción  se pagan de contado si su precio está en 50-100 pesos
Tipo=muñeca/muñeco acción  &  Rango Precio=300-500 & Capacidad 2=efecto sonoro è Tipo de pago=12 meses
muñeca/muñeco acción
Las compras de muñecas de acción en precio de 300-500 pesos y con efectos de sonido se pagan a 12 meses
Grado de confianza de .97
Hora de compra=tarde >12 y <4 19 è Rango Precio=101-300 Energía=n/a
Cualquier tipo de juguete
En la tarde de 12 a 4 se compran la mayoría de juguetes entre 101-300 pesos


Comentarios finales
Recuerde que este blog está orientado a brindarle a las PYMES elementos con los que puedan realizar sus análisis. El alcance de este artículo es mostrar cómo se pueden realizar análisis de minería de datos usando reglas de asociación, al estilo hágalo usted mismo. El análisis y descripción de los algoritmos no está, en esta ocasión, dentro del alcance de este artículo.
El uso de las herramientas libres de análisis avanzados como WEKA, está al alcance de cualquier persona que maneje una computadora y una hoja de cálculo. No es indispensable (como un niño con un control remoto) que conozca y domine los algoritmos que incluyen las herramientas. Pero si es indispensable que sepa qué tipo de análisis requiere y qué tipo de resultados arroja.
En este blog proporcionaremos la información necesaria para que usted se familiarice con este tipo de análisis y pueda implementarlos es su empresa. Si tiene dudas al respecto, con mucho gusto nos ponemos a sus órdenes en el correo daf.rosso@gmail.com para apoyarlo. 
En el siguiente artículo, veremos cómo se integran este tipo de análisis de minería de datos a una solución integral de inteligencia de negocio, adicionalmente empezaremos a platicar otros tipos de analíticos avanzados.

Copyright © 2011 Dafne Rosso Pelayo. Todos los derechos reservados.


A continuación presentamos un extracto de las reglas encontradas con dos diferentes tipos de algoritmos de asociación que maneja WEKA.

No hay comentarios: