Tabla de contenidos
Un data warehouse o depósito de datos es una colección de datos orientado a temas, integrado, no volátil, de tiempo variante, que se usa para el soporte del proceso de toma de decisiones gerenciales. Imagínese lo difícil que sería obtener cualquier información si los datos estuvieran almacenados en forma desorganizada, o si no existiese una forma sistemática para recuperarlos.
El data warehouse adquirió importancia dentro de las grandes instituciones, debido a que provee un ambiente para que las organizaciones hagan un mejor uso de la información que está siendo administrada por diversas aplicaciones operacionales.
Reunir los elementos de datos apropiados desde diversas fuentes de aplicación en un ambiente integral centralizado, simplifica el problema de acceso a la información y en consecuencia, acelera el proceso de análisis, consultas y el menor tiempo de uso de la información.
Las aplicaciones para soporte de decisiones basadas en un data warehouse, pueden hacer más práctica y fácil la explotación de datos para una mayor eficacia del negocio, que no se logra cuando se usan sólo los datos que provienen de las aplicaciones operacionales (que ayudan en la operación de la empresa en sus operaciones cotidianas), en los que la información se obtiene realizando procesos independientes u muchas veces complejos.
Una data warehouse se crea al extraer datos desde una o más bases de aplicaciones operacionales. Los datos extraídos se transforman para eliminar inconsistencias y resumir si es necesario y luego son cargados en el data warehouse.
El proceso de transformar, crear el detalle de tiempo variante, resumir y combinar los extractos de datos, ayudan a establecer el ambiente para el acceso a la información institucional. Este nuevo enfoque ayuda a las personas individuales, en todos los niveles de la empresa, a efectuar su toma de decisiones con más responsabilidad.
Beneficios del Data Warehouse
El data warehouse provee varios beneficios a las empresas que lo implementan, entre los que se destacan:
- Soporta el procesamiento informático al proveer una plataforma sólida, a partir de los datos históricos para hacer el análisis.
- Facilita la integración de sistemas de aplicación no integrados.
- Organiza y almacena los datos que se necesitan para el procesamiento analítico informático sobre una amplia perspectiva de tiempo.
Los datos que ingresan en el data warehouse provienen del ambiente operacional en la mayoría de los casos.
El data warehouse es siempre un almacén de datos que se ha transformado y separado físicamente de la aplicación donde se encontraron los datos en el ambiente operacional.
Características del Data Warehouse
Sus principales características son las siguientes:
Orientado hacia la información relevante de la organización
Se diseña para consultar eficientemente información relativa a las actividades básicas de la organización, como ser compras ventas, producción, etc., y no para soportar los procesos que se realizan en la organización, como ser gestión de pedidos, facturación, etc.
Datos Integrados
Integra datos recolectados de diferentes sistemas operacionales de la organización y/o fuentes externas.
Variable en el tiempo
Los datos son relativos a un período de tiempo y estos deben ser integrados periódicamente. Son almacenados como fotos que se corresponden a períodos de tiempo.
No volátil
Los datos que son almacenados no sufren de ninguna actualización solo son incrementados. El período de tiempo cubierto por un data warehouse va de 2 a 10 años.
Requerimiento Fundamentales de un Data Warehouse
La infraestructura tecnológica que soporte el data warehouse se encuentra separada y, por lo general, será diferente de la que soporta los sistemas operacionales.
En definitiva, los requerimientos fundamentales que determinan la esencia del data warehouse podrían ser los siguientes:
- Acceso universal a los datos, que se crean y se tratan de acuerdo con los requerimientos del usuario y dentro del marco de un modelo de datos.
- Implantación de un sistema abierto, con interfaces a fuentes de datos internas y externas.
- Selección de los datos de acuerdo con el contenido de información y la relevancia para la decisiones.
- Separación lógica y física de las bases de datos de almacén de datos y de metadatos respecto a las bases de datos operacionales.
- Creación de herramientas de consulta para el usuario final, con posibilidades de utilización intuitiva y funciones de unión e interrelación.
Componentes de un Data Warehouse
Los componentes de un data warehouse son los siguientes:
Fuentes de datos
Este componente es el que normalmente está presente originariamente en las organizaciones, y a partir del cual se realiza la captura de datos que se contempla en el data warehouse. Estas fuentes de datos pueden ser sistemas operacionales corporativos (representan el entorno del que se obtienen la mayor parte de los datos significativos de la operativa diaria de la compañía), sistemas operacionales departamentales, fuentes externas, etc.
Extracción y transformación
Es responsable de que la información pueda moverse, con las transformaciones que sean necesarias, desde las fuentes de datos antes mencionada, al data warehouse.
Servidor de datos
También podría denominarse componente de gestión.
Los servicios que debe ofrecer incluyen un servicio de mantenimiento de datos y un servicio de distribución para exportar datos del data warehouse a servidores de bases de datos descentralizadas, y otros sistemas de soporte de decisiones de usuario. El componente de gestión también ofrece servicios de seguridad (archivo, backup, recuperación) y monitorización. Generalmente, estos servicios utilizan los medios suministrados por el software del sistema operativo y de bases de datos subyacente.
El componente de SGBD (Sistema de gestión de Base de Datos) consiste en el software de base de datos que se utilice para mantener y extraer datos. Hay dos enfoques diferentes para el almacenamiento de la información:
- Las bases de datos relacionales.
- Las multidimensionales.
Así, tendremos gestores de bases de datos relacionales (SGBDR) o gestores de bases de datos multidimensionales (SGBDM).
Herramientas de acceso
Sin las herramientas adecuadas de acceso y análisis, el data warehouse se puede convertir en una amalgama de datos sin ninguna utilidad.
Es necesario poseer técnicas que capturen los datos importantes de manera rápida y puedan ser analizados desde diferentes puntos de vista. También, deben transformar los datos capturados en información útil para el negocio.
Actualmente, a ese tipo de herramientas se las conoce como business intelligence tool (BIT) y están situadas conceptualmente sobre el data warehouse. Cada usuario final debe seleccionar qué herramienta se ajusta mejor a sus necesidades y a su data warehouse.
Entre ellas podemos citar:
- Consultas SQL (Structured Query Language)
- Herramientas MDA (Multidimensional Analysis)
- OLAP (On-line Analytical Processing)
- Herramientas ROLAP (Relational On-line Analytical Processing)
- Herramientas Data Mining.
Repositorio/Metadatos
Los metadatos son básicamente datos acerca de los que están contenidos en el data warehouse. Así, uno de los problemas con el que pueden encontrarse los usuarios de un data warehouse es saber lo que hay en él y cómo pueden acceder a lo que quieren. El repositorio les ayuda a conseguirlo.
Es sólo una de las utilidades del repositorio, pero éste tiene muchas funcionalidades:
- Catalogar y describir la información disponible.
- Especificar el propósito de la misma.
- Indicar las relaciones entre los distintos datos.
- Establecer quién es el propietario de la información.
- Relacionar las estructuras técnicas de datos con la información de negocio.
- Establecer las relaciones con los datos operacionales y las reglas de transformación.
- Limitar la validez de la información.
Factores de éxito de un Data Warehouse
Los principales factores que llevan al éxito al data warehouse son:
- Integra datos de producción con datos externos y gestiona historiales.
- Contiene datos útiles.
- Los datos son coherentes, actualizados y documentados (calidad).
- Ofrece acceso directo a los usuarios.
- Aumenta el número de accesos.
- Otorga una flexibilidad que apoya al crecimiento de los usuarios, herramientas así como también el volumen de los datos.
Problemas en la implementación
- Alto costo.
- Inmediata ayuda para la toma de decisiones (Data Mart).
- Alto costo de mantenimiento debido a cambios de necesidades, nuevas fuentes de datos, cambio de la capacidad o de la tecnología.
- Control de calidad de los datos.
- Heterogeneidad e integración de datos.
Fuente: María de los Ángeles Ibarra, Procesamiento Analítico en Línea, Diseño y administración de datos, Universidad Nacional del Nordeste, Argentina.
Adaptado por la División consultoría de EvaluandoSoftware.com