1. Población 2. Almacenamiento 3. Uso de herramientas OLAP o de Minería de Datos.


1. Población

 

Adquisición.

Diseñar procedimientos para:

Cargue inicial. Primera extracción desde los sistemas en operación hacia la bodega de datos.

Actualizaciones. Los datos deberán ser extraídos periódicamente, en un proceso cíclico. Este periodo puede ser cada semana, mes, etc., de acuerdo a la situación concreta del negocio. Actualizaciones muy constantes, normalmente no benefician el análisis de datos, puesto que rara vez cambian las tendencias o comparaciones.

Algunos puntos a tener en cuenta.

Conviene hacer la extracción a un archivo, esto facilita:

  • Reiniciar en distintos puntos.
  • Se puede repetir el cargue
  • También facilita un preproceso antes de enviar por la red
  • Los cargues deben ser masivos
  • Aprovechar los utilitarios de las bases de datos.
  • No usar INSERT, por su ineficiencia
  • Generalmente es conveniente eliminar los índices y volverlos a crear.

Para los refrescos.

  • Detección y propagación de cambios.
  • Datos Cooperativos: Triggers y aplicaciones asincrónicas.
  • Manejo de bitácoras de cambios.
  • Comparaciones de versiones (Ej. diff en Unix), para detección.


2. Almacenamiento

Estrategias para lograr eficiencia.

  • Mantener agregados.
  • Especial cuidado con las actualizaciones de datos, deben generar la actualización de los datos sumarios.
  • Indices : Bitmap, join index, etc.

 

   
3. Uso de herramientas OLAP o de Minería de Datos.

Se debe recordar que no es suficiente con almacenar datos, es necesario procesarlos para convertirlos en información importante para la organización.

Los sistemas de apoyo a las decisiones (DSS), conectan a las personas con las bodegas de datos. De la calidad de estas herramientas depende el grado de aprovechamiento de estas. Pueden ser:

 

Herramientas de consultas/reportes, con interfaz gráfica, que facilitan, sin usar sentencias SQL, realizar queries o peticiones complejas.

Herramientas OLAP (On-Line Analytical Processing). Permiten obtener información generando consultas multidimensionales, con columnas y filas móviles y diversos grados de agrupamiento, para diferentes parámetros.

Modelo Multidimensional: Modelo estilo hoja de cálculo.

a. Elementos:

  • Medidas: Valores de interés
  • Dimensiones: Atributos: Propiedades Visión de Cubos: Datos representados en forma de arreglos multidimensionales.

b. Visión de Relaciones :

  • Tablas de hechos (Fact Table): Ej., ventas.
  • Tablas de dimensiones: Ejemplo, tiempo, producto, geografía.

Usualmente se maneja el tiempo como una tabla. Esto permite colocar atributos a la fecha. Es usual desnormalizar las tablas. La normalización genera un efecto denominado copos de nieve, es preferible usar el método de la estrella, donde las relaciones son mas claras. La actualización se hace por periodos, no en línea.

 

Tipos de servidores OLAP.

MOLAP: Multimensionales OLAP.

  • Arreglos multidimensionales.
  • No escalan a grandes volúmenes.
  • No hay estándar.
  • Muy eficiente.
  • Realmente guarda el cubo de decisión.
  • Interfaz estilo hoja de cálculo.
  • Principalmente operaciones de agregación de medidas diferentes.
  • Niveles jerárquicos de las dimensiones.
  • Subir o bajar en los niveles de agregación (Roll-up, Drill-Down).
  • Otras operaciones comunes: Filtrar y rotar. Slice and Dice.
  • La herramienta RAD de Inprise, Delphi, permite la construcción de cubos de decisión a partir de consultas SQL, con varios parámetros de agrupación y fácil manipulación. Ver figura siguiente.

F

Clic para maximizar imagen en otra ventana

ROLAP: Relational OLAP.

  • Relaciones.
  • Consultas SQL
  • Escalan bien a grandes volúmenes
  • Son menos eficientes.

HOLAP: Híbrido OLAP.

  • Datos agregados. MOLAP
  • Datos detallados. ROLAP

 

CC



Universidad Nacional de Colombia
Carrera 30 No 45-03 - Edificio 477
Bogotá D.C. - Colombia
PBX: 3165000
webmaster@unal.edu.co

Aviso Legal - Copyright
Gobierno en LíneaAgencia de Noticias UN