Leamos lo que escribió en octubre
de 1995 Edmun DeJesus, editor de la famosa revista BYTE Magazín:
"Gracias a la minería de datos, las computadoras
se encargan de seleccionar vastos almacenes de datos. Con
una incansable e incesante búsqueda, será posible encontrar
la diminuta pepita de oro en una montaña de datos de desperdicio".
|
En data mining las búsquedas se hacen sobre datos
dispersos, con poca o ninguna intervención del usuario. No se requiere
formular un requerimiento estricto para que la herramienta entregue
algunas relaciones ocultas y patrones interesantes, conseguidos
a través de clasificación y predicción.
|
|
Algunas aplicaciones de estas técnicas
están directamente relacionadas con el mercadeo de producto, pudiendo
predecir el comportamiento de los clientes ante una oferta o un
producto en particular, de acuerdo a su ubicación geográfica. También
para conocer las preferencias de los consumidores y tomar medidas
que los acerquen a los productos que se distribuyen. |
| Buscando
Patrones |
|
El proceso de buscar patrones significativos
en los datos, que expliquen eventos pasados, con el objetivo de
usar dichos patrones para ayudar a predecir eventos futuros. |
|
Puede ser:
Descriptiva. Información. Análisis dimensional.
Predictiva. Generar modelos. Esto realmente
es minería de datos. Partir de un cúmulo de datos y descubrir
relaciones ocultas y complejas a partir de diversas operaciones.
Ejemplos de esto son:
-
El análisis de transacciones de tarjetas
de crédito para encontrar patrones de fraudes.
-
Búsqueda de tendencias de los compradores
de acuerdo a sexo, edad, ubicación, etc.
|
| Tareas
de minería de datos |
|
Clustering. Agrupamiento-segmentación. Particionar
un conjunto heterogéneo en subconjuntos mas homogéneos. Internamente
el sistema define estas características.
Clasificación. Asignar un registro a una
o varias posibles clases predefinidas.
|
|
Agrupamiento por afinidad. Análisis de correlaciones.
Identifica eventos o transacciones que ocurran simultáneamente.
Ejemplo de compra los días jueves en la noche de pañales y cervezas
en mercado.
Estimación /predicción. Asignar un valor
a una variable dependiente que toma valores numéricos continuos.
Esto lo diferencia de la clasificación.
|
| |
| Ejemplo |
|
Un ejemplo tradicional de minería de datos es el
relacionado con una búsqueda en una bodega de datos, de un negocio
de cadena, de hechos comunes y relevantes: Luego del proceso se
dio como resultado la siguiente:
Esto sirvió para que empresa tomara medidas relacionada
con la ubicación de ciertos productos en sitios comunes. |
|
Si edad < 35;
y sexo = masculino;
y dia = jueves
entonces compras incluyen
pañales;
y cerveza |
| |
| Técnicas
de Minería de Datos. |
|
Redes Neuronales.
- Clasificación
- Estimación Clustering
Arboles de decisión |
|
Técnicas de Algoritmos genéticos
- Optimización de funciones, se usan con redes neuronales.
Análisis de Correlaciones
K-Vecinos.
|
| |
|
|
Demos un vistazo a algunas de ellas |
|
Redes Neuronales artificiales (RNA). Como
su nombre lo indica simula el sistema nervioso real en forma abstracta.
Estas deben ser entrenadas para que den solución a los problemas.
Esta enseñanza se realiza repitiendo sistemáticamente entradas clásicas,
con sus respectivas salidas o respuestas. Son usadas para reconocimiento
de patrones, clasificaciones de voz e imagen, procesamiento de lenguaje
natural, predicción y optimización.
Reglas de Producción. Generalmente son transformaciones
de árboles de decisión que han crecido mucho, llevándolos al plano
proposicional, lo cual facilita el entendimiento.
Todas estas técnicas pueden ser mezcladas para obtener los resultados
esperados.
|
|
K-Vecinos. Usa razonamiento basado en memoria
(MBR) para las predicciones. Identifica los vecinos más cercanos
(valores similares para igual atributo) y observa como se comporta
la variable de salida. Parte de un conjunto de datos modelo, que
representa el mecanismo de clasificación, se determina la cantidad
de vecinos que participan en la clasificación (K). Es permitido
ponderar atributos para expresar su importancia en la técnica.
Arboles de decisión (AD). Representan reglas
donde atributos independientes determinan los valores finales. En
estos árboles cada nodo representa una propiedad que puede tomar
diversos valores, cada uno de los cuales genera una rama. Los nodos
hojas representan las clasificaciones finales. Usadas donde se deben
tomar decisiones a partir de varias alternativas combinadas y con
pesos diferentes. Son útiles en problemas de alta dimensionalidad
y pequeño numero de valores para cada atributo. Se usan, por enumerar
unos, en dominios médicos y en simulaciones de juegos de ajedrez.
|
| |
| Inconvenientes |
|
| En estas tareas de minería de datos, se encuentran inconvenientes
inherentes a las bodegas de datos: |
|
-
Grandes volumen de información y altamente
dimensionales, lo que dificulta el hallazgo de patrones.
-
Valores inconsistentes o no existentes en
algunos atributos importantes. Estas situaciones deberían haberse
corregido en la fase de población y actualización, pero en caso
de presentarse se debe tener una política para su manejo.
-
La representación de los resultados no siempre
es comprensible para todos los usuarios.
- Valor estadístico de los patrones hallados.
|
| |
| Productos
para minería de datos |
|
Hoy existen una buena cantidad
de productos, de diversos fabricantes, para minería de datos, varios
de ellos impulsados por universidades reconocidas [Esc96]. Por enumerar
algunos, Intelligent Miner (IBM), KDD Project (GTE laboratories),
Datamind (Datamind Inc), Saxon (PMSI). Algunos se pueden conseguir
en sitios Internet, para las diferentes plataformas: Data Surveyor
(www.ddi.nl), IDIS (http://datamine.inter.net/datamine), VisDB (http://www.informatik.uni-halle.de/dbs/Research/VisDB). |
|
Este último producto tiene una
versión para sistema operativo Linux. El VisDB se ha desarrollado
para apoyar la exploración de bancos de datos grandes. Los instrumentos
de VisDB implementan severas técnicas visuales, permitiendo trabajar
con bodegas de datos de aproximadamente un millón de valores de
datos. Las técnicas apoyadas por el sistema son: Técnicas orientadas
a pixel (espirales, Ejes y Técnicas de Agrupación), Coordenadas
Paralelas y figuras de madera. |
| |
|
|
Estos productos, en forma integrada
o separada se basan en: Redes neuronales, algoritmos genéticos,
árboles de decisión, algoritmos estadísticos, funciones de visualización
gráfica, técnica de K-vecinos, reglas de producción. |
| |
|
|
| Algunos
pasos deben seguirse para lograr provechosos resultados |
- Qué se espera?.
- Qué se quiere descubrir?
- Conjuntos de datos que se analizaran.
-
Pre-procesamiento. Buscan desechar los valores
con desviaciones muy altas, generados por ausencia o datos incorrectos.
-
Limpieza. A partir de un previo conocimiento
obtenido en los pasos anteriores se determinan las variables
y registros que realmente representaran importancia.
- Elegir la función de la minería y sus algoritmos.
|