Actores no físicos en el Big Data.

Tratando los actores físicos que están dentro del Big Data ha quedado claro que muchas empresas están buscando la manera de recolectar millones datos para luego aprovecharlos y con ellos tramar sus estrategias de mercado, sus planes bursátiles o encaminar el rumbo de la empresa hacia una dirección u otra, tales como IBM, Oracle o EMC.

Pero tratando estas empresas nos dimos cuenta que había algo más detrás de ellas una red de herramientas las cuales permiten analizar los datos y establecer límites en el análisis y manipulación de estos, una serie de licencias y redes de aplicaciones que ordenan estos datos para su uso. A continuación vamos a exponer una serie de herramientas las cuales hemos ido reconociendo ya que cuando hablábamos de las empresas han ido apareciendo en los usos de estas. Entre estas herramientas se encuentran bases de datos, aplicaciones de análisis, visión y recolección de datos.

Herramientas del Big Data

Hadoop

Para empezar no podemos hacerlo de otra manera que exponiendo en primer lugar el framework que se ha usado desde los inicios del Big Data: Apache Hadoop. Este  es un entorno de trabajo virtual el cual está diseñado para detectar fallas o errores y salvarlos con máquinas individuales y así conseguir una alta precisión. Además utiliza modelos de programación simples para el procesamiento distribuido de un gran conjunto de datos a través de varias máquinas conectadas. Es la plataforma pionera en el Big Data como hemos puntualizado antes siendo utilizada por gigantes como Yahoo! o Facebook. Aunque Hadoop sigue liderando en la revolución del Big Data, en los últimos años las grandes empresas como Oracle, IBM, Cloudera o Hp entre otras han ido desarrollando sistemas que han eclipsado en capacidad y rapidez a Hadoop, aunque hay que decir que estos sistemas desarrollados contienen licencias Apache, que son de uso libre y permiten la utilización de muchos lenguajes que se adaptan para desarrollar las nuevas herramientas.Hadoop almacena toda clase de datos, tanto estructurados como no estructurados o semiestructurados.

MongoDB

Entra dentro de las bases de datos NoSQL, estas son bases de datos que utilizan una estructura de datos que para el almacenamiento hacen uso de otros formatos como clave–valor, mapeo de columnas o grafos, no se basan en los datos relacionales como se hace en las extensiones de Apache. La base de datos MongoDB, esta siendo una alternativa para el almacenamiento de datos, ya que esta almacena los datos en documentos y no en regristos como suelen hacer las demas.MongoDB es especialmente útil en entornos que requieran escalabilidad. Con sus opciones de replicación y sharding, podemos conseguir un sistema que escale horizontalmente sin demasiados problemas.

Elasticsearch

Esta herramienta nos permite la rápida  búsqueda de datos en las bases de datos, siendo especialmente útil cuando de datos complejos se habla. Podemos analizar miles de datos rápidamente y hacer comentarios acerca de ellos.

Gridgain

Es una herramienta que proporciona métodos dinámicos de computación y almacenamiento de datos tales como la agrupación dinámica, procesamiento MapReduce,  ejecución de cierre distribuido, balanceo de carga, tolerancia a fallos, mensajería distribuida y escalabilidad lineal.

Storm

Apache Storm es un sistema de cálculo de código abierto, distribuido y con tolerancia a errores que permite procesar datos en tiempo real con Hadoop. Las soluciones de Storm pueden proporcionar también procesamiento de datos garantizado, con la posibilidad de reproducir los datos que no se han procesado correctamente la primera vez. Es una de las herramientas más populares y está siendo utilizada por empresas como Flipboard, Groupon, Twitter, Spotify, Yahoo (Japón), WebMD, Baidu y muchos más. Esta herramienta nos permite recoger los datos de los sensores y  extraer información de las APIs(Una API es el mecanismo más útil para conectar dos softwares entre sí para el intercambio de mensajes o datos en formato estándar como XML o JSON, son tipos de escritura de programación)

HPCC

HPCC, siglas de “clustering computacional de alto rendimiento “, es conocido por ofrecer un rendimiento superior a Hadoop en determinados entornos. Esta herramienta está disponible tanto en versión gratuita y versión de pago. Tiene un apoyo activo de la comunidad en todo el mundo.

Spark

Es un motor de procesamiento de grandes datos, de código abierto, rápido y fácil de usar. Esta herramienta permite el uso de diferentes lenguajes de programación para las aplicaciones.. Puede reducir la complejidad de la interacción de los datos, aumentar la velocidad de proceso y mejorar las aplicaciones de misión crítica con amplia información útil. Según el programa que se le de, hasta 100 veces más rápido en memoria o 10 veces más en disco que Hadoop MapReduce, es considerado la herramienta más rápida en el análisis de datos, en 2014 superó el record mundial de clasificación de datos, 100 terabytes en 23 minutos.

Hive

Sirve para la consulta y gestión de los datos, ofrece resúmenes, consultas y análisis de los datos. A parte de ser un servicio de Hadoop, ofrece un mecanismo propio para estructurar y consultar datos con un lenguaje llamado HiveQL.

Flume

Sirve para la recogida, agregación, y traslado de grandes conjuntos de datos de manera eficiente. Cuenta con una arquitectura simple y flexible basada en la transmisión de flujos de datos.

Conclusión.

Como podemos apreciar muchos de estas herramientas se desarrollan dentro del framework Hadoop, el cual da la posibilidad con su aceptación de varios lenguajes de poder desarrollar nuevas y mejores herramientas. También hay que decir que esto es posible gracias a que las grandes empresas del Internet de nuestros días financian a Apache para que esta pueda seguir desarrollando estas herramientas y poder así que se agilice todo el proceso del Big Data y con ello las empresas puedan tenernos un poco mas controlados o poder ayudarnos que aún no hemos podido resolver esa duda.

Referencias.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s