Data Warehouse  

Un Data Warehouse es un conjunto de datos integrados orientados a una materia, que varían con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de la administración. (W.H. Inmon, considerado como el padre del data warehouse) [Har96]. Esta orientada al manejo de grandes volúmenes de datos, provenientes de diversas fuentes, de muy diversos tipos. Estos datos cubren largos períodos de tiempo, lo que trae consigo que se tengan diferentes esquemas de los datos fuentes. La concentración de esta información esta orientada a su análisis para apoyar la toma de decisiones oportunas y fundamentadas. Previo a su utilización se debe aplicar procesos de análisis, selección y transferencia de datos seleccionados desde las fuentes.

  Componentes de un Data Warehouse  

 

Como se puede observar en el esquema, cuando un auditor se enfrenta a un Sistema de Bodega de Datos (Data Warehouse), su labor debe tener en cuenta muchos elementos que influyen en la seguridad y buen funcionamiento.

En particular resaltamos:

 

Datos Antiguos: Tienen gran importancia en los procesos iniciales de población de la bodega de datos. Son datos de periodos anteriores. Pueden provenir de 20 años atrás, en algunos casos. La dificultad de ubicación, recuperación y transformación a los formatos requeridos (pueden estar incluso en documentos en papel) es uno de los problemas mas usuales en proyectos de este tipo.

Datos Operacionales: Datos operativos actualizados por aplicaciones OLTP (On Line Processing Transaction. Procesamiento de transacciones en línea.). Están almacenados en las bases de datos en producción.

Extractores de Datos: Encargados del copiado y distribución de los datos de acuerdo con el diseño. Se determinan los datos a copiar, desde donde y hacia donde, periodos para las actualizaciones. Se determina si se realiza una regeneración (copia de la fuente de datos en su totalidad) o una actualización (solo se propagan los cambios). Los datos externos son adecuados y limpiados antes de ser sumados a la bodega de datos.
Son los enlaces entre los datos en producción y el Data Warehouse (generalmente de tipo relacional)

Bodega de Datos: El repositorio de datos actual. Organizadas orientada a intereses concretos. Información histórica reflejando transacciones OLTP, acumuladas por años o en general por periodos largos. Se dice que son servidores de datos para apoyo de decisiones, que añade valor a los datos procedentes de las fuentes en producción. Contienen información detallada y agregada.

Metadatos: Los metadatos llevan registros de los datos almacenados, integrados en la misma base de datos. Describen el contenido de los objetos de la bodega de datos: las tablas, índices y el contenido de los datos. Los metadatos definen los formatos, significado y origen de los datos y facilitan el acceso y administración a los datos en la bodega.
Contienen la información de la fuente antes de ingresar a la bodega, el mapeo de los datos fuentes a datos en la bodega, historia de las extracciones, logica y algoritmos usados para los procesos de datos (sumarizacion, organización, etc.) y la historia de los cambios en la bodega.

Herramientas de Consultas y Extracción de Información: Proveen la interfaz humana con la bodega de datos. En el procesamiento de la información se pasa de simples consultas SQL a OLAP y de esta a Minería de Datos.

 
Evaluación del Sistema
 
Diseño e Implementación
 
En esta fase se debe partir de los requerimientos funcionales de información, que generen una ventaja competitiva para la empresa y faciliten la toma de decisiones por parte de la administración.
 

Riesgos.
- No realización de riguroso análisis de los sistemas previos, las necesidades actuales y los requerimientos a futuro.
- Optar por la arquitectura de data Warehouse que no se acomode al negocio concretamente.
- Definición equivocada o mediocre de estructura y esquema eficiente: (granularidad, índices, esquemas de objetos)

 
Extracción Inicial de Datos
  Riesgos.
- Bajo conocimiento de sistemas anteriores para la extracción de datos
- Ineficiente y/o erróneo proceso de recuperación y manipulación de datos históricos.
- Poca calidad de los procesos de conversión a esquemas actuales.
- Manejo de ausencias, inconsistencia y/o duplicación de datos.
 
Actualizaciones
  Factores de Riesgos.
- Definición incorrecta de los periodos para actualización.
- Mecanismo de actualización (hacia archivo o directamente hacia sistema).
- Herramientas para los cargues a la bodega de datos,
- Garantía de completitud de propagación de cambios.
- Procesamiento de los campos de agregación antes de la actualización en la bodega.
 
Extractor de Datos
  Riesgos.
- Pérdida o no extracción de datos relevantes para el negocio.
- Pérdida de fidelidad de los datos extraídos.
- Poca efectividad y eficiencia en el proceso.
- Desactualización del extractor ante cambios de los sistemas en operación.
- Acceso no restringido al software de extracción.
- Falla en los procesos de extracción (caída del sistema, inaccesibilidad de los datos, etc.).
 
Bodega de Datos
  Riesgos.
- Desactualización de esquemas a nuevas necesidades del negocio.
- Acceso no restringido a objetos de Data Warehouese.
- Respaldo de los datos almacenados.
 
Metadatos
  Riesgos.
- Pérdida de representación de las fuentes y de la bodega por los metadatos.
- Ineficiencia y/o inefectividad de los metadatos.
- Acceso no restringido.
- Nombramiento no estándar de los objetos en Data Warehouse.
- Falta de capacitación a usuarios sobre el manejo de los metadatos.
- Respaldo de la información de los metadatos.
 
Herramientas de soporte a la toma de decisiones
 

Almacenar esta gran cantidad tiene como objetivo reportar información, e incluso conocimiento, que permita actuar en condiciones de menor incertidumbre. Esto incluye el descubrimiento de patrones y tendencias, que puedan ser extrapoladas e intentar predecir comportamientos futuros. Estas técnicas se basan en las matemáticas, estadística, en la psicología, algoritmos genéticos, redes neuronales e incluso en la experiencia.
Se debe evaluar si se ha realizado un análisis serio de las necesidades de información del negocio.
Verificar que las herramientas que se usan en esta fase son las correctas y se emplean adecuadamente.
Disponibilidad de las herramientas de análisis, acordes con los diferentes niveles de requerimientos.
Si la información entregada por estos sistemas en correctamente interpretada y destinadas a generar acciones.
Los cambios a programas que generan información deben ser autorizados y revisados antes de ponerlos en producción.
Entrenamiento de usuarios en las herramientas utilizadas, que le permita conseguir la información esperada.
Adecuación de los programas y herramientas a los cambios en los datos y metadatos.

 

Sistema Operativo
 
La bodega de datos se encuentra sobre la plataforma del sistema operativo. La seguridad representada en la disponibilidad, confidencialidad y controles de accesos y privilegios sobre las áreas de almacenamiento y procesamiento están en gran medida dependientes de esta plataforma.
 

Riesgos.
- El Sistema operativo no apoya las políticas de acceso establecidas desde la administración de la bodega de datos.
- Los recursos requeridos par los procesos de actualización sean mal atendidos por el sistema operativo.
- El sistema operativo permite que programas o usuarios ejecuten y utilicen recursos protegidos desde la bodega de datos.
- El sistema operativo no otorga los recursos necesarios para la realización de procesos de alto costo computacional.

 

Red
 
Es la infraestructura de comunicación que permite que los diferentes componentes intercambien información. La cantidad de datos contenidos en Data Warehouse incrementa su importancia.
 

Riesgos.
- Acceso al sistema desde elementos externos sin autorización (aplicaciones, personas, etc.).
- La red se convierta en un cuello de botella para lo operación del sistema.
- La inexistencia de elementos que respalden un componente que falle.

 

Usuarios
 
Los diseñadores del sistema Data Warehouse no conocen suficientemente el negocio como para modelarlo correctamente.
Impericia de usuarios para la obtención de información desde la bodega de datos.
No uso de la bodega de datos o mal empleo de la información producida por la misma.
 
Ejercicio Propuesto
  Apoyado en los elementos de auditoría presentados en los capítulos anteriores:
  a. Plantear controles para cada grupo de riesgos
b. Para cada grupo, diseñar una prueba de auditoria que le permita obtener evidencia de los hallazgos.



Universidad Nacional de Colombia
Carrera 30 No 45-03 - Edificio 477
Bogotá D.C. - Colombia
PBX: 3165000
webmaster@unal.edu.co

Aviso Legal - Copyright
Gobierno en LíneaAgencia de Noticias UN