¿Qué Software es apto para su empresa?

Acceda a nuestros evaluadores

Con afirmaciones y símiles tan llamativos como «el petróleo del siglo 21i», el big data se ha posicionado como una de las grandes revoluciones tecnológicas que están sucediendo hoy en día. Este término hace referencia a la aparición y el aprovechamiento de grandes volúmenes de datos.

Si bien los datos existían antes, nunca hasta ahora se habían contemplado como una fuente de valor para las empresas, de transparencia para las Administraciones públicas o de mejor autogestión para todos los ciudadanos en su día a día. De la mano de la digitalización —transformación por la cual procesos que anteriormente se realizaban de una manera física, manual o mecánica, ahora se realizan mediante tecnología informática—, todo lo que sucede en nuestra vida cotidiana deja un rastro en forma de dato que puede ser parte del big data.

¿Y qué es un dato? Un dato es un registro que se almacena en silos y lagos de información, y se guardan variables como el actor que produjo una interacción, en qué momento se produjo, en qué lugar, qué características tenía dicho actor, en qué contexto sucedió, etc.

Por poner un ejemplo cotidiano, cada vez que un usuario realiza una compra a través de un comercio online, se establece una huella en alguna base de datos de qué compró, cuánto pagó, cómo pagó, qué productos compró a la vez, dónde estaba cuando realizó la compra… y, así, un sinfín de información.

Los grandes portales de comercio online están facturando cifras crecientes cada año, involucrando miles de millones de transacciones y millones de usuarios con toda la información mencionada anteriormente. Por eso es big data.

expansión big data

Imagen Cortesía de Expansión.com

La digitalización no solamente ha permitido sensorizar muchos de nuestros movimientos y acciones, sino que ha facilitado escalar la economía de manera nunca vista anteriormente. Este proceso ha favorecido a que el comercio trascienda gran parte de las barreras físicas que tradicionalmente tenía: una zapatería tenía un límite de negocio que venía dado por el tamaño de la tienda, el número de dependientes o el horario de apertura, cualquier empresa textil con un portal online puede dar servicio en cualquier punto del mundo y los clientes pueden adquirir sus productos a cualquier hora en cualquier lugar. Por supuesto, siguen existiendo límites: los productos físicos siguen dependiendo de una logística, de unos proveedores y de una fabricación que es difícil que se escalen al mismo ritmo que las posibles ventas, pero la propia digitalización de la industria y su monitorización continua permiten optimizar los procesos hasta límites que aún no somos capaces de vislumbrar.

El big data no es una moda, ni una tendencia que estén estudiando en los departamentos de innovación de las empresas más punteras. Algunas multinacionales ya han cambiado para siempre gracias a la utilización estratégica de los datos como los casos que hemos publicados.

Lo que ha surgido como otro de los términos de moda, la transformación digital, tiene como consecuencia natural la generación de volúmenes de información anteriormente nunca vistos.

¿Dónde está el big data? Grandes cifras y fuentes de datos

No solo tenemos disponibles los datos que ahora somos capaces de sensorizar a través de la transformación digital. Existen terceras partes que permiten utilizar sus datos, respetando los aspectos legales asociados, para construir información o aplicaciones sobre ellos.

Es el caso de las redes sociales como Twitter o Facebook, que proveen de API (interfaces de programación de aplicaciones o, de forma más coloquial, puntos de conexión de descarga de datos) a terceros, lo que permite obtener información detallada sobre los perfiles de comportamiento y los usuarios de las mismas. YouTube tiene otras API para extraer estadísticas de los vídeos que alberga su portal, y de la misma manera sucede en sitios como LinkedIn, Instagram o Google Plus.

Este big data que estamos generando los usuarios externamente a empresas como entidades financieras, aseguradoras, grandes distribuidores, supermercados o marcas de moda son aprovechadas por éstas para conocer mejor nuestros gustos e intereses, adecuar sus productos y ofertas o entender cómo son nuestros patrones de movilidad diarios, y adaptar sus campañas de marketing al momento en que menos nos molesten. Así, las bases de datos internas de las empresas ya se pueden considerar big data: el volumen de datos que se manejan en estas fuentes externas es increíble.

Como se puede observar en la figura, en solamente un minuto, casi medio millón de tuits son enviados, se realizan tres millones y medio de búsquedas en Google o casi un millón de usuarios se identifican para entrar en Facebook. Cada uno de estos hechos es una fila nueva en una tabla inmensa de datos que refleja cada día lo que hacemos, lo que sentimos o dónde estamos.

redes sociales big data

Imagen cortesía de Visualcapitalist.com

El análisis de datos

¿Acaso antes de esta revolución digital no existían los datos? Por supuesto que sí. Entonces, ¿es esto del big data y el análisis de datos algo completamente nuevo? Por supuesto que no.

Uno de los ejemplos más antiguos que se recuerdan de recopilación de la información y explotación de la misma es el caso del análisis de las muertes por cólera realizada por el doctor John Snow, uno de los precursores de la epidemiología, en el Londres de 1854.

Mediante la visualización geográfica de las muertes que se habían producido por cólera en el mes de septiembre de ese año, este doctor verificó que la variable que mejor las explicaba era la existencia de un pozo de agua contaminado en Broad Street. Gracias al análisis de datos, también explicó por qué enfermó gente que vivía lejos de esta calle o por qué de un taller cercano con más de quinientas personas solamente enfermaron cinco empleados.

Los motivos por los que, primero, se ha acuñado un nuevo término para hacer referencia a estas tecnologías y técnicas y, segundo, de repente, se ha convertido en tendencia en todos los sectores económicos, son muy variados. El principal es el anteriormente mencionado: la transformación digital ha hecho que se haya empezado a recopilar información a gran escala de diferentes procesos empresariales.

El segundo motivo es la aparición de tecnologías que nos permiten almacenar y procesar volúmenes de información de una manera barata y escalable. El tercero es la adquisición de conocimiento en el mundo empresarial de que existen una gran variedad de técnicas estadísticas, matemáticas e informáticas, tradicionalmente conocidas desde los años cincuenta en el sector académico y científico, que nos permiten descubrir patrones en nuestros datos y, con ellos, anticipar lo que ocurrirá en el futuro.

El cuarto y último motivo es, precisamente, lo que se ha dado en llamar Economía de los Datos, la consciencia de que tanto los datos en sí mismos como lo que podemos derivar de ellos (información, conclusiones, predicciones, etc.), pueden ayudar a las empresas a generar más ventas, disminuir costes e, incluso, generar nuevos negocios por sí mismos.

El componente tecnológico del big data

La aparición de todas las fuentes de datos mencionadas anteriormente, entre otras muchas, ha supuesto un reto tecnológico a las compañías, ya que los sistemas de información de los que disponían no estaban preparados para hacer frente a las nuevas características que estas tienen en comparación con las fuentes de datos tradicionales.

Los retos principales que surgieron tras la aparición de las fuentes de datos digitales fueron los siguientes:

  • Almacenamiento de enormes volúmenes: seguramente, el reto más evidente es la ingente cantidad de datos que era necesario almacenar y procesar.
  • Ingesta de datos de múltiples fuentes: aparecen diferentes puntos de acceso a datos, con formas distintas de conexión, formatos, etc. En los análisis avanzados que las técnicas de aprendizaje automático nos permiten hacer, es necesario modelizar nuestro problema de la manera más rica posible, por lo que es necesario incorporar fuentes diversas de información, tanto internas de la compañía (herramientas actuales, operacionales distintas, aplicaciones de marketing, etc.) como externas (redes sociales, datos públicos, meteorología, eventos, localizaciones, etc.).
  • Tasas de captura de información: algunas de estas fuentes no solamente generan un volumen muy grande, sino que lo hacen a velocidades desiguales a lo largo del tiempo, con picos enormes. A modo de ilustración, aunque la tasa de tuits por minuto que hacen mención a un jugador de fútbol sea alta, cuando éste mete un gol, en un espacio muy corto de tiempo se produce una cantidad enorme de menciones.
  • Datos desestructurados: aparecen fuentes de datos que, en vez de aportar información concreta semánticamente, es necesario preprocesar para extraer su verdadero significado. Por ejemplo, en una base de datos de clientes de una compañía, existe información como la edad o la ciudad donde vive (campos con información unívoca semánticamente), pero también se recogen las opiniones que dichos clientes escriben en foros, en texto libre y, por tanto, no por el hecho de almacenar las máquinas son capaces de entender su significado (¿qué usuarios se han quejado del servicio técnico en el último mes?).

Cambio de paradigma

Las bases de datos tradicionales estándares, denominadas relacionales, eran muy robustas desde el punto de vista de los procesos y operaciones de las compañías, y aseguraban su consistencia, durabilidad y aislamiento a lo largo del tiempo, pero no eran suficientemente eficaces a la hora de tratar con los problemas mencionados anteriormente.

Para solucionarlo, grandes compañías, como fueron los casos de Google y Yahoo, hicieron muchos esfuerzos invirtiendo en investigación y desarrollo, y el resultado fue un cambio absoluto de paradigma en lo que a los sistemas de almacenamiento y procesamiento de la información se refiere. Sin entrar en detalles técnicos, dieron con una solución por la cual se puede almacenar y procesar la información de manera distribuida (entre muchos servidores) con unos requisitos de estructuración de datos mucho menores que los sistemas tradicionales. Esto permite de forma muy sencilla lo que se conoce como escalabilidad horizontal, la competencia de hacer crecer la capacidad de almacenamiento y procesamiento a lo largo del tiempo simplemente agregando nuevos servidores a nuestra infraestructura sin impacto en lo que existía anteriormente.

arquitectura big data

Escalabilidad horizontal

La principal tecnología que surgió, en 2008, fue Hadoop, una implementación del esquema distribuido previamente mencionado. Pero el principal avance de la aparición de esta tecnología no es solamente el hecho de que resolviera los problemas que las nuevas fuentes de datos proponían, sino que Yahoo y Nutch (las dos principales empresas involucradas en su desarrollo) lo liberaron como un proyecto open source, lo que hizo que una gran comunidad de desarrolladores ayudará a que evolucionara, y se estableciera en las compañías tecnológicas como un estándar. Posteriormente han aparecido un sinfín de tecnologías en el entorno de Hadoop, y hoy en día existen otros modelos de procesamiento distribuido que lo superan en rendimiento. Fue la apuesta estratégica de compartir de manera abierta este conocimiento lo que hizo que el big data, en su parte tecnológica, se haya convertido en uno de los principales objetivos de las compañías.

Fuente: Fundación Telefónica, Economía de los Datos Riqueza 4.0

Adaptado por la División Consultoría de EvaluandoSoftware.com

 

¿Qué Software es apto para su empresa?

Acceda a nuestros evaluadores