Tabla de contenidos
Este artículo resalta la importancia de utilizar las herramientas de minería de datos para agilizar las consultas de grandes volúmenes y transformar datos en información, sobre todo en el mundo empresarial.
El logro de competitividad en la producción es una tarea primordial en Business Intelligence (Inteligencia de Negocios). Para ello, es fundamental desarrollar en el sistema empresarial una mentalidad innovadora.
En el ámbito de las soluciones de minería de datos, las aplicaciones de análisis conocidas como OLAP, siglas del inglés On-Line Analytical Processing, son una de las herramientas más utilizadas por las empresas, ya que han sido creadas en función a bases de datos multidimensionales que permiten procesar grandes volúmenes de información en campos bien definidos, y con un acceso inmediato a los datos para su consulta posterior. Proporcionan a las compañías un sistema confiable para procesar datos que luego serán utilizados para llevar a cabo análisis e informes que permiten mejorar las operaciones productivas, tomar decisiones inteligentes y optimizar la competitividad.
Además, dan soporte a las tecnologías de Data Warehouse. En general, estos sistemas OLAP deben:
- Soportar requerimientos complejos de análisis.
- Analizar datos desde diferentes perspectivas.
- Soportar análisis complejos.
La principal característica de las herramientas de minería de datos OLAP, es que son entornos especialmente diseñados para la ejecución del análisis multidimensional de los datos corporativos de cualquier usuario que soportan.
Asimismo, brindan posibilidades de navegación, seleccionando información, permitiendo el análisis de datos segmentados que permiten ir reduciendo el conjunto de datos que se han reportado. Este tipo de selecciones se refleja en la visualización de la estructura multidimensional, mediante unos campos de selección que permiten elegir el nivel de agregación (jerarquía) de la dimensión, y/o la elección de un dato en concreto.
La información es gestionada y procesada en grandes bloques organizativos, como pueden ser la estructura geográfica o la académica, llamados dimensiones. Dichas dimensiones de negocio se estructuran a su vez en distintos niveles de detalle.
En la actualidad, su aplicación se ha extendido hacia todas las áreas empresariales y otros tipos de organizaciones que analizan volúmenes masivos de datos —incluyendo medianas empresas, academia, gobierno y demás instituciones públicas y privadas—, que requieren cada vez más de un análisis dinámico, potente y en línea para tomar decisiones adecuadas, generando así la demanda de este tipo de software.
Bases de datos
Una base de datos es una colección de datos organizados y estructurados según un determinado modelo de información que refleja no solo los datos en sí mismos, sino también las relaciones que existen entre ellos.
Una base de datos se diseña con un propósito específico y es organizada con una lógica coherente. Los datos podrán ser compartidos por distintos usuarios y aplicaciones, sin embargo, deben conservar su integridad y seguridad al margen de las interacciones de ambos. La definición y descripción de los datos deben ser únicas para minimizar la redundancia y maximizar la independencia en su utilización.
En una base de datos, las entidades y atributos del mundo real se convierten en registros y campos. Estas entidades pueden ser tanto objetos materiales como libros o fotografías, pero también personas e incluso conceptos e ideas abstractas. Las entidades poseen atributos y mantienen relaciones entre ellas. Las bases de datos pueden clasificarse según las características.
Clasificación de bases de datos
Una base de datos proporciona a los usuarios el acceso a la información, que pueden visualizar, ingresar o actualizar, en concordancia con los derechos de entrada que se les haya otorgado.
Una base de datos local puede ser utilizada por un solo usuario en una computadora o distribuir la información en equipos remotos y acceder a ella a través de una red.
La principal ventaja de utilizar bases de datos es que múltiples usuarios pueden acceder a ellas al mismo tiempo.
El manejo de datos requiere de un proceso para convertirse en información útil; algunas de las herramientas que necesita este tipo de procedimiento se presentan a continuación.
Herramientas de la minería de datos para convertir datos en información
Data Warehouse
La base de la minería de datos es el Data Warehouse. Es una combinación de conceptos y tecnologías destinadas a satisfacer los requerimientos de una organización o empresa, en términos de mejorar la gestión con eficiencia y facilidad de acceso.
Se trata de una base de datos relacional diseñada para la consulta y análisis en lugar del procesamiento de transacciones. Por lo general, contiene información histórica derivada de una transacción, pero puede incluir datos de otras fuentes. Separa el análisis de carga de trabajo de las transacciones y permite a una organización consolidar datos de varias fuentes.
OLTP (On-Line Transactional Processing)
Los sistemas OLTP son herramientas de la minería de datos. Consisten en bases de datos orientadas al procesamiento de transacciones. Una transacción genera un proceso atómico, y puede involucrar operaciones de inserción, modificación y borrado de datos. El proceso transaccional es típico de las bases de datos operacionales.
El acceso a los datos está optimizado para tareas frecuentes de lectura y escritura. Por ejemplo, la enorme cantidad de transacciones que tienen que soportar las BD de bancos o hipermercados diariamente.
Los datos se estructuran según el nivel de aplicación (programa de gestión a medida, ERP o CRM implantado, sistema de información departamental, etcétera). Los formatos de los datos no son necesariamente uniformes en los diferentes departamentos (es común la falta de compatibilidad y la existencia de islas de datos).
El historial de datos suele limitarse a los datos actuales o recientes. Son aplicaciones que definen el comportamiento habitual de un entorno operacional de gestión y ejecutan las operaciones del día. Las características más comunes de este tipo de transacciones son:
- Altas/bajas/modificaciones
- Consultas rápidas, escuetas y predecibles
- Poco volumen de información y disgregada
- Transacciones rápidas
- Gran nivel de concurrencia
- Modo de actualización on-line
- Baja redundancia de datos
Algunos ejemplos de este tipo de aplicaciones son:
- Compras
- Ventas
- Inventario
- Sueldos
OLTP también se ha utilizado para referirse a la transformación en la que el sistema responde de inmediato a las peticiones del usuario. Un cajero de un banco es un ejemplo de una aplicación de procesamiento de transacciones comerciales.
La tecnología OLTP se utiliza en innumerables aplicaciones, como en banca electrónica, procesamiento de pedidos, comercio electrónico, supermercados o industria.
Diferencias entre un Datawarehouse y un sistema OLTP
Los Data Warehouse y sistemas OLTP (On-Line Transactional Processing) tienen necesidades muy diferentes. Los siguientes son algunos ejemplos de las diferencias entre los Data Warehouse típicos y sistemas OLTP:
Carga de trabajo
De antemano, el usuario puede no conocer la carga de trabajo del almacén de datos, por lo que debe ser optimizado para propiciar un buen desempeño de variedad de posibles operaciones de consulta. Los sistemas OLTP apoyan las operaciones predefinidas. Sus aplicaciones pueden ser sintonizadas o diseñadas para soportar estas operaciones específicamente.
Modificación de datos
Un almacén de datos se actualiza de forma regular por el proceso ETL (Extraer, transformar, cargar) utilizando técnicas de modificación de la información a granel. Los usuarios finales de un almacén de datos no se actualizan directamente del almacén.
En sistemas OLTP, los usuarios finales emiten rutinariamente instrucciones de modificación de información individual a la base de datos. La base de datos OLTP está siempre al día, y refleja el estado actual de cada transacción comercial.
Diseño del esquema
Los Data Warehouse a menudo usan esquemas que no están normalizados o lo están parcialmente (como un esquema en estrella) para optimizar el rendimiento de las consultas.
Los sistemas OLTP suelen utilizar esquemas totalmente normalizados para optimizar y garantizar la coherencia de datos.
Las operaciones típicas
Una consulta típica de almacenamiento de datos escanea miles o millones de filas. Por ejemplo, «ubicar las ventas totales para todos los clientes el mes pasado».
Una operación típica OLTP accede solo a un puñado de registros. Por ejemplo, «recuperar la orden actual para este cliente».
Los datos históricos
Los Data Warehouse suelen almacenar varios meses o años de información. Esto es para apoyar el análisis histórico.
Los sistemas OLTP suelen almacenar datos de unas pocas semanas o meses. El sistema OLTP almacena únicamente datos históricos necesarios para afrontar con éxito los requisitos de la transacción actual.
Además de una base de datos relacional, un Data Warehouse incluye una solución de extracción, transporte, transformación y carga (ETL), un procesamiento analítico en línea (OLAP) del motor, herramientas de análisis de clientes y otras aplicaciones que gestionan el proceso de recopilación de información y la entrega a los usuarios de negocios.
Datamart
Se caracteriza por disponer una estructura óptima de datos para analizar información desde varias perspectivas que afecten los procesos de dicho departamento. Un Datamart puede ser alimentado desde los datos de un Datawarehouse o integrar por sí mismo un compendio de distintas fuentes de información.
Datamart OLAP
Se basan en los cubos OLAP populares, que se construyen según los requisitos de cada área o departamento, las dimensiones y los indicadores necesarios de cada cubo relacional. El modo de creación, explotación y mantenimiento de los cubos OLAP es heterogéneo, en función de la herramienta final que se utilice.
Datamart OLTP
Las bases de datos OLTP pueden basarse en un simple extracto del data warehouse, no obstante, lo común es introducir mejoras en su rendimiento (los agregados y filtrados suelen ser las operaciones más usuales), aprovechando las características particulares de cada área de la empresa.
Las estructuras comunes son las tablas report, que vienen a ser fact-tables reducidas (que agregan dimensiones oportunas), y las vistas que se construyen con la misma estructura que las anteriores, aun con el objetivo de explotar la reescritura de consultas (queries).
Los Datamart dotados con estas estructuras óptimas de análisis presentan las siguientes ventajas:
- Poco volumen de datos
- Mayor rapidez de consulta
- Consultas SQL sencillas
- Validación directa de la información
Proceso ETL
Los procesos ETL son una parte de la integración de datos. Son un elemento importante cuya función completa el resultado de todo el desarrollo de la cohesión de aplicaciones y sistemas. La palabra ETL corresponde a las siglas en inglés de:
- Extraer: extract.
- Transformar: transform.
- Cargar: load.
Con ello, se puede decir que todo proceso ETL consta precisamente de estas tres fases: extracción, transformación y carga.
¿Qué es OLAP?
OLAP, siglas del inglés On Line Analytical Processing, es el acrónimo en inglés de procesamiento analítico en línea. Es una solución de minería de datos utilizada en el campo de la inteligencia empresarial (o Business Intelligence) cuyo objetivo es agilizar la consulta de grandes cantidades de datos. Para ello, utiliza estructuras multidimensionales (o cubos OLAP) que contienen información resumida de grandes bases de datos. Se usa en informes de negocios de ventas, marketing, informes de dirección, minería de datos y áreas similares.
La herramienta utiliza estructuras de datos multidimensionales o cubos OLAP, que son bases multidimensionales en la cual el almacenamiento físico de la información se realiza en un vector multidimensional. Los cubos OLAP se pueden considerar como una ampliación de las 2 dimensiones de una hoja de cálculo, estos contienen información resumida de grandes bases de datos o Sistemas Transaccionales.
Clasificación y comparación de sistemas OLAP
De acuerdo al funcionamiento y estructura, los sistemas OLAP han sido clasificados en distintas categorías, como ROLAP, MOLAP, HOLAP. El sistema OLAP más utilizado hoy en día es el llamado ROLAP. A continuación se describen los distintos Sistemas OLAP.
ROLAP
Significa Procesamiento Analítico en Línea Relacional. Es una herramienta OLAP construida sobre una base de datos relacionales. En este sistema tiene importancia la tabla de hechos, donde se almacena la historia de la información relevante para la empresa que requiere ser estudiada.
En la industria del OLAP, el sistema ROLAP es conocido por ser capaz de escalar grandes volúmenes de información, pero su rendimiento a la hora de ejecutar consultas es inestable comparado con otro procedimiento de la industria OLAP, MOLAP.
MOLAP
Significa Procesamiento Analítico Multidimensional en Línea, cuyo sistema guarda los datos en una matriz multidimensional de almacenamiento y requiere que el procesamiento y la acumulación de información estén contenidos en el cubo OLAP.
HOLAP
Significa Procesamiento Analítico en Línea Híbrido, es una combinación de los sistemas ROLAP y MOLAP permitiendo ordenar una parte de los datos en un MOLAP mientras que el resto lo hace como un ROLAP.
Fuente: Revista Iberoamericana de las ciencias computacionales e informáticas
Adaptado por la División Consultoría de EvaluandoSoftware.com