Datawarehouse y Datamart

El Data warehouse o Almacén de datos, genera bases de datos tangibles, transaccionales que proporcionan consultas operativas para el análisis multidimensional.

Data Warehouse

Un Data Warehouse es un conjunto de datos integrados orientados a un material que varían con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de una administración. Está basado en el procesamiento de análisis en línea, también conocido como OLAP, siglas del inglés OnLine Analysis Process, que es usado en el análisis y visión flexible del negocio.

Los datos almacenados en el Data Warehouse necesariamente deben estar integrados sobre una estructura detallada por niveles en función de las necesidades del usuario.

Se deben consolidar los datos con la misma temática para que el proceso de generación del conocimiento se integre y se tenga mayor facilidad de acceso y entendimiento.

El Data Warehouse sirve para realizar análisis de tendencias y pronósticos de resultados por lo que la carga de distintos valores que toma una variable en el tiempo, permitirá las comparaciones esperadas. Su datos son no volátiles; por lo tanto no serán modificados, sólo leídos.

Datamart

El Data mart, son datos especializados que están enfocados a un área específica, permiten acelerar las consultas, mantener una estructura eficiente de los datos y permite dividir y segmentar los datos para mejorar el control de acceso.

Arquitectura Data warehouse

La arquitectura básica de un Data Warehouse incluye:

  • Datos operacionales: origen de datos que pueden ser de sistemas transaccionales internos o externos.
  • Extracción de datos: selección sistemática de datos operacionales
  • Transformación de datos: procesos de cambios en los datos operacionales
  • Carga de datos: inserción sistemática de datos.
  • Data warehouse: almacenamiento de datos.
  • Herramientas de acceso al componente físico Data Warehouse.

Los pasos de Extracción, Transformación y Carga son conocidos como el proceso ETL por sus siglas en inglés (Extract, Transform and Load). Este proceso organiza el flujo de los datos entre varios sistemas y aporta algunos métodos y herramientas para mover, limpiar y formatear en otras bases de datos.

Procesamiento Analítico en Línea – OLAP

Las herramientas OLAP (Online Analytical Processing) presentan una visión multidimensional de los datos a través de cubos, donde el usuario formule consultas seleccionado atributos sin conocer la estructura interna del almacén de datos. Una consulta a un almacén de datos está orientada a obtener medidas sobre los hechos, dimensiones y condiciones de la consulta que se desea obtener. Los operadores de las herramientas OLAP permiten obtener mayor eficacia en la consulta de los datos.

El ejemplo que se muestra en la Figura 3 representa un cubo de tres dimensiones. La primera dimensión es el tiempo que puede tener varios niveles con su respectivo valor, la segunda dimensión es el país y la tercera es el producto. Un usuario que vea datos OLAP logrará visualizar información con mayor o menor detalle.

Operadores OLAP

Las herramientas OLAP presentan los siguientes operadores de refinamiento o manipulación de consultas:

  • Rotar (Swap): alterar las filas por columnas.
  • Bajar (Down): bajar el nivel de visualización en las filas a una jerarquía inferior.
  • Detallar (Drilldown): informar para una fila en concreto de datos a un nivel inferior.
  • Expandir (Expand): igual que el anterior sin perder la información a nivel superior para todos los valores.
  • Roll: elimina un criterio de agrupación en el análisis, agregando los grupos actuales.
  • Slice & Dice: impone condiciones sobre las dimensiones.
  • Pivot: elige atributos para la tabla de salida y cambia la disposición de los atributos.

Modelo de datos OLAP

Dentro de los modelos de datos OLAP se destaca dos en especial:

Modelo estrella

Se basa en una tabla de hechos central que representa las medidas y que está enlazada a las tablas de dimensiones relacionadas que son las categorías descriptivas de las medidas

Modelo copo de nieve

Tienen el mismo concepto que el modelo estrella pero a su vez se enlaza a otras tablas dimensionales.

El uso de estos esquemas o modelos simplifica la comprensión de los datos y maximiza el desempeño de las peticiones (queries) de la base de datos ahorrando espacio de almacenamiento.

Sistemas OLAP

Entre los sistemas de administración de bases de datos relacionales para OLAP que las compañías han adoptado se detallan los siguientes:

Sistema ROLAP

En castellano significa Procesamiento Analítico Relacional en Línea. Los datos se recuperan desde el Data Warehouse y no son almacenados por separado. Utiliza una arquitectura de tres niveles:

  • La base de datos relacional.
  • El motor ROLAP.
  • El nivel de aplicación que ejecuta las consultas multidimensionales de los usuarios.

Sistema MOLAP

En castellano significa Procesamiento Analítico Multidimensional en Línea. Los datos son pre calculados y luego almacenados en cubos multidimensionales de datos, utiliza una arquitectura de dos niveles:

  • La base de datos multidimensional.
  • El motor analítico.
  • Sistema HOLAP

Procesamiento Analítico Híbrido en Línea, permite registrar los datos detallados en una base de datos relacional, mientras que los datos agregados se almacena en una base de datos multidimensional separada.(Peña, Alejandro, 2006).

Cómo funciona una consulta OLAP

A continuación se muestra un ejemplo de cómo funciona el sistema OLAP, en cuanto a las consultas.

Fuente: ING. Cathy Pamela Guevara Vega, Desarrollo de una plataforma de business intelligence para facilitar el análisis de datos de las competencias generales de formación aplicadas en el desempeño laboral, Universidad de las fuerzas armadas – ESPE

Adaptado por la División consultoría de EvaluandoSoftware.com

 

¿qué software es apto para su empresa?

Acceda a nuestros evaluadores

Deja un comentario