Un Data Warehouse es un conjunto de datos integrados orientados a una materia, que varían con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de la administración. (W.H. Inmon, considerado como el padre del data warehouse) [Har96]. Esta orientada al manejo de grandes volúmenes de datos, provenientes de diversas fuentes, de muy diversos tipos. Estos datos cubren largos períodos de tiempo, lo que trae consigo que se tengan diferentes esquemas de los datos fuentes. La concentración de esta información esta orientada a su análisis para apoyar la toma de decisiones oportunas y fundamentadas. Previo a su utilización se debe aplicar procesos de análisis, selección y transferencia de datos seleccionados desde las fuentes.
En particular resaltamos:
Datos Antiguos: Tienen gran importancia en los procesos iniciales de población de la bodega de datos. Son datos de periodos anteriores. Pueden provenir de 20 años atrás, en algunos casos. La dificultad de ubicación, recuperación y transformación a los formatos requeridos (pueden estar incluso en documentos en papel) es uno de los problemas mas usuales en proyectos de este tipo.
Datos Operacionales: Datos operativos actualizados por aplicaciones OLTP (On Line Processing Transaction. Procesamiento de transacciones en línea.). Están almacenados en las bases de datos en producción.
Extractores de Datos: Encargados del copiado y distribución de los datos
de acuerdo con el diseño. Se determinan los datos a
copiar, desde donde y hacia donde, periodos para las actualizaciones.
Se determina si se realiza una regeneración (copia
de la fuente de datos en su totalidad) o una actualización
(solo se propagan los cambios). Los datos externos son adecuados
y limpiados antes de ser sumados a la bodega de datos.
Son los enlaces entre los datos en producción y el
Data Warehouse (generalmente de tipo relacional)
Bodega de Datos: El repositorio de datos actual. Organizadas orientada a intereses concretos. Información histórica reflejando transacciones OLTP, acumuladas por años o en general por periodos largos. Se dice que son servidores de datos para apoyo de decisiones, que añade valor a los datos procedentes de las fuentes en producción. Contienen información detallada y agregada.
Metadatos: Los metadatos llevan registros de los datos almacenados, integrados
en la misma base de datos. Describen el contenido de los objetos
de la bodega de datos: las tablas, índices y el contenido
de los datos. Los metadatos definen los formatos, significado
y origen de los datos y facilitan el acceso y administración
a los datos en la bodega.
Contienen la información de la fuente antes de ingresar
a la bodega, el mapeo de los datos fuentes a datos en la bodega,
historia de las extracciones, logica y algoritmos usados para
los procesos de datos (sumarizacion, organización,
etc.) y la historia de los cambios en la bodega.
Herramientas de Consultas y Extracción de Información: Proveen la interfaz humana con la bodega de datos. En el procesamiento de la información se pasa de simples consultas SQL a OLAP y de esta a Minería de Datos.
| Evaluación del Sistema | |||
| Diseño e Implementación | |||
En
esta fase se debe partir de los requerimientos funcionales
de información, que generen una ventaja competitiva
para la empresa y faciliten la toma de decisiones por
parte de la administración. |
|||
Riesgos. |
|||
| Extracción Inicial de Datos | |
| Riesgos. - Bajo conocimiento de sistemas anteriores para la extracción de datos - Ineficiente y/o erróneo proceso de recuperación y manipulación de datos históricos. - Poca calidad de los procesos de conversión a esquemas actuales. - Manejo de ausencias, inconsistencia y/o duplicación de datos. |
|
| Actualizaciones | |
| Factores
de Riesgos. - Definición incorrecta de los periodos para actualización. - Mecanismo de actualización (hacia archivo o directamente hacia sistema). - Herramientas para los cargues a la bodega de datos, - Garantía de completitud de propagación de cambios. - Procesamiento de los campos de agregación antes de la actualización en la bodega. |
|
| Extractor de Datos | |
| Riesgos. - Pérdida o no extracción de datos relevantes para el negocio. - Pérdida de fidelidad de los datos extraídos. - Poca efectividad y eficiencia en el proceso. - Desactualización del extractor ante cambios de los sistemas en operación. - Acceso no restringido al software de extracción. - Falla en los procesos de extracción (caída del sistema, inaccesibilidad de los datos, etc.). |
|
| Bodega de Datos | |
| Riesgos. - Desactualización de esquemas a nuevas necesidades del negocio. - Acceso no restringido a objetos de Data Warehouese. - Respaldo de los datos almacenados. |
|
| Metadatos | |
| Riesgos. - Pérdida de representación de las fuentes y de la bodega por los metadatos. - Ineficiencia y/o inefectividad de los metadatos. - Acceso no restringido. - Nombramiento no estándar de los objetos en Data Warehouse. - Falta de capacitación a usuarios sobre el manejo de los metadatos. - Respaldo de la información de los metadatos. |
|
| Herramientas de soporte a la toma de decisiones | |
Almacenar esta gran cantidad tiene como objetivo
reportar información, e incluso conocimiento,
que permita actuar en condiciones de menor incertidumbre.
Esto incluye el descubrimiento de patrones y tendencias,
que puedan ser extrapoladas e intentar predecir comportamientos
futuros. Estas técnicas se basan en las matemáticas,
estadística, en la psicología, algoritmos
genéticos, redes neuronales e incluso en la
experiencia.
|
|
| Sistema Operativo | ||
La
bodega de datos se encuentra sobre la plataforma del
sistema operativo. La seguridad representada en la disponibilidad,
confidencialidad y controles de accesos y privilegios
sobre las áreas de almacenamiento y procesamiento
están en gran medida dependientes de esta plataforma. |
||
Riesgos.
|
||
| Red | ||
Es
la infraestructura de comunicación que permite
que los diferentes componentes intercambien información.
La cantidad de datos contenidos en Data Warehouse incrementa
su importancia. |
||
Riesgos.
|
||
| Usuarios | |
Los diseñadores
del sistema Data Warehouse no conocen suficientemente
el negocio como para modelarlo correctamente. Impericia de usuarios para la obtención de información desde la bodega de datos. No uso de la bodega de datos o mal empleo de la información producida por la misma. |
|
| Ejercicio Propuesto | ||
| Apoyado en los elementos de auditoría presentados en los capítulos anteriores: | ||
| a. Plantear controles para
cada grupo de riesgos b. Para cada grupo, diseñar una prueba de auditoria que le permita obtener evidencia de los hallazgos. |
||