Todos los días se hace mas caótica la inteligencia empresarial (BI). No me tome a mal, no estoy diciendo que BI se hará obsoleto y que lo debería evitar a todo costo. Por el contrario, lo que quiero decir es que BI tendrá que salir de su caja hacia un mundo donde los datos no estan muy bien estructurados dentro de bases de datos bien definidas utilizando un lenguaje de búsquedas estructurado, mas conocido como SQL (por sus siglas en inglés).
Dado que los sistemas BI no estan siendo utilizados solo por un pequeño número de usuarios (trabajadores de la información, científicos de datos y data geeks) con el propósito de proveer resultados para un número aún mas pequeño de usuarios (quienes toman las decisiones), BI se esta expandiendo mas allá del uso de SQL en la búsqueda de datos relacionales, para explorar otros métodos en la búsqueda de información.
En este caótico mundo, BI tendrá que hacer que diferentes tipos de información cobren sentido aún cuando estos datos esten contenidos en múltiples fuentes. Y en la medida en que nos movemos de datos bien estructurados y contenidos en bases de datos relacionales, hacia información menos estructurada o sin estructura y contenida en fuentes de medios sociales como blogs o sistemas de mensajería, la gestión y análisis de datos se convertirá en un reto aún mayor.
En una entrada al blog (inglés) de The 451 Group, Matthew Aslett cita la necesidad como uno de los factores importantes en la estimulación de la adopción de tecnologías alternativas para la gestión de datos. Esto tiene sentido ya que los esquemas tradicionales de bases de datos relacionales no logran satisfacer todos los problemas, especialmente cuando se trata de información sin estructura, o cuando la información no es necesariamente un registro en tabla o del tipo de estructura de campo.
La ventaja de las bases de datos NoSQL es que permiten a las organizaciones el trabajo con tipos diferentes de información y en diferentes formas. Las empresas pueden ahora administrar grandes grupos de información almacenada en sistemas distribuidos para su subsecuente análisis. Algunos ejemplos importantes son Bigtable de Google, Dynamo de Amazon, and Hadoop de Apache. Entonces, ¿qué es NoSQL y cómo funciona? Además, ¿puede ser utilizado con las estrategias de almacenamiento y BI para efectos de análisis?
¿Qué es NoSQL?
Muchos creen que el término NoSQL se refiere a la falta de necesidad de un SQL, pero de hecho se refiere a “Not Only SQL” (no solo SQL) y significa el uso de nuevas formas de administración de la información además de la forma SQL tradicional. El concepto básico de una base de datos NoSQL es el de un sistema rápido para la administración de bases de datos que puede funcionar e interactuar sobre sistemas UNIX y que almacena información en archivos UNIX ASCII comunes, para poderlos manejar con los comandos y servicios de UNIX.
Ello quiere decir que las bases de datos NOSQL no funcionan necesariamente con solo datos desestructurados, pero que en su lugar son mas versátiles que los esquemas de las bases de datos tradicionales y pueden trabajar con una gran variedad de tipos de datos. Además, las bases de datos NoSQL no necesariamente deben trabajar con grupos fijos de tablas, registros y campos. Existen varias bases de datos NoSQL disponibles en el mercado, y aunque cada una contiene funciones y características específicas para la administración de la información, todas las bases de datos NoSQL tiene las siguientes características generales:
• Procesamiento distribuido
• Escalabilidad
• Gran disponibilidad
• No contienen esquemas fijos y permiten la migración hacia otros esquemas sin tiempo de inactividad
NoSQL para el análisis y almacenamiento de datos
Aunque algunas organizaciones son reacias y precavidas sobre el uso de las bases de datos NoSQL para propósitos de análisis y almacenamiento de datos, la complejidad y creciente volumen de la información disponible, ha forzado a muchas organizaciones a buscar opciones alternativas e innovadoras para la gestión de grandes volúmenes de información compleja.
Por ejemplo, Cloudera ofrece una plataforma para datos basada en el marco de trabajo de código abierto llamada Apache Hadoop para los servicios de procesamiento de datos y para el almacenamiento, consolidación y procesamiento de grandes cantidades de datos complejos para propósitos de análisis y minería. Otro ejemplo es DataStax (antiguamente Riptano) ofrece DataStax’ Brisk, una distribución Hadoop y Hive (infraestructura de Hadoop para el almacenamiento de datos) el cual utiliza Cassandra (una base de datos escalable y distribuida de Apache) para apoyar las aplicaciones analíticas y en tiempo real.
A pesar del rápido ritmo de crecimiento de lagunas empresas como Cloudera, la mayoría de las grandes empresas no son conscientes del potencial de las bases de datos NoSQL para ayudarles a satisfacer sus necesidades de información, y poder confiar ampliamente en las herramientas y proveedores de BI tradicionales, especialmente en el área de BI.
El atractivo de NoSQL en BI
A pesar de la falta de conocimiento al respecto, algunos proveedores ofrecen productos que se pueden conectar con bases de datos NoSQL, como Hadoop y Cassandra entre otros, anunciando posiblemente el tiempo cuando las organizaciones implementarán mas bases de datos NoSQL para propósitos de análisis de datos. A continuación observaremos algunas de las ventajas de las bases de datos NoSQL para el almacenamiento de datos:
• Costo: algunas soluciones NoSQL pertenecen a la modalidad de código abierto y pueden ser descargadas sin costo. Otros productos, aunque no son de código abierto, pueden tener buenos precios en comparación con los almacenes de datos tradicionales. Además, dada su capacidad distribuida, la mayoría de las soluciones NoSQL pueden trabajar sobre equipos (hardware) de bajo costo.
• Escalabilidad: la mayoría de las bases de datos NoSQL ofrecen servicios distribuidos, lo que quiere decir que pueden escalar por medio de servidores en paralelo.
• Versatilidad: varios tipos de opciones y de bases de datos estan disponibles para procesar grandes cantidades de datos provenientes de diferentes fuentes (datos estructurados y sin estructura), proporcionando al usuario la habilidad de trabajar con tipos de información específicos.
Algunos cambios
Sin embargo, existen algunos retos con las bases de datos NoSQL, lo cual puede descartar su uso para propósitos de análisis de datos:
• Complejidad: la implementación y uso de algunas bases de datos NoSQL pueden ser desafiantes en la medida en que estos sistemas no utilizan las sentencias SQL. Esta puede no ser la mejor perspectiva para el área de BI donde las soluciones son cada vez mas fáciles de usar.
• Especificidad: así como otras aplicaciones de software, es posible que las bases de datos NoSQL no puedan apoyar todos los procesos de análisis de BI. Entonces, es posible que requiera de esfuerzos adicionales para elegir la base de datos apropiada o para adaptarla a la necesidad.
• Insuficiencia de personal capacitado: en la medida en que estas herramientas son relativamente nuevas en el mercado, muchas personas pueden no conocer las capacidades del sistema lo cual se convierte en una desventaja.
Las bases de datos NoSQL, al igual que otras aplicaciones, deben pasar por un proceso de maduración. En su momento, las bases de datos NoSQL lograrán su madurez y popularidad; y podrán ser capaces de proveer características para hacer mas eficiente su adopción por parte de las organizaciones, así como mejorar la experiencia del usuario y su administración.
Esta entrada no es mas que una breve introducción a NoSQL. Existe mucho mas de los que podemos hablar al respecto, lo cual estaré haciendo muy pronto. Sin embargo, en el momento podemos decir que las bases de datos NoSQL, además de otras tendencias (tecnologías en-memoria, nuevos tipos de esquemas para el almacenamiento de datos, etc.) cambiaran muy probablemente la forma en la cual las organizaciones realizar sus actividades de BI y almacenamiento de datos.Empresas como Cloudera, IBM y EMC buscan proveer los medios para que las organizaciones adopten Hadoop, lo cual puede llevar a que muchas organizaciones adopten la estrategia NoSQL para sus tareas de BI.
Déjeme saber por favor sus opiniones, y le responderé la semana entrante cuando estaré de regreso de mis vacaciones.
Share ThisEnvío datos de BI interesantes
BI con Oracle son muy estables y seguros en mi opnion personal ya no hay ribal para oracle y sql quedo en la historia