Big Data

¿Qué es Big Data? 


El concepto de Big Data aplica para toda aquella información que no puede ser procesada o analizada utilizando procesos o herramientas tradicionales. Sin embargo, Big Data no se refiere a alguna cantidad en específico, ya que es usualmente utilizado cuando se habla en términos de petabytes y exabytes de datos. Entonces ¿Cuánto es demasiada información de manera que sea elegible para ser procesada y analizada utilizando Big Data? Analicemos primeramente en términos de bytes:

Gigabyte = 109 = 1,000,000,000
Terabyte = 1012 = 1,000,000,000,000
Petabyte = 1015 = 1,000,000,000,000,000
Exabyte = 1018 = 1,000,000,000,000,000,000
Big data, macrodatos, datos masivos, inteligencia de datos o datos a gran escala es un concepto que hace referencia a conjuntos de datos tan grandes que aplicaciones informáticas tradicionales del procesamiento de datos no son suficientes para tratar con ellos y a los procedimientos usados para encontrar patrones repetitivos dentro de esos datos.

Características del Big Data

Volumen. La cantidad de datos. Mientras que el volumen indica más datos, la naturaleza granular de los datos es única. Los big data requieren procesar altos volúmenes de datos Hadoop no estructurados y de baja densidad; es decir, datos de valor desconocido, como fuentes de datos de Twitter, flujos de clics en una página web y una aplicación móvil, tráfico de red, equipos con sensores que capturan datos a la velocidad de la luz, y mucho más. Es la tarea de los big data convertir estos datos Hadoop en información valiosa. Para algunas organizaciones, puede significar decenas de terabytes; para otras, cientos de petabytes.


Velocidad. El ritmo en que se reciben los datos y, quizás, se ponen en práctica. Normalmente, los datos de velocidad más alta fluyen directamente a la memoria en lugar de escribirse en el disco. Algunas aplicaciones de Internet de las cosas tienen ramificaciones de estado y seguridad que requieren evaluación y acción en tiempo real. Otros productos inteligentes de Internet funcionan en tiempo real o prácticamente en tiempo real. Por ejemplo, las aplicaciones de comercio electrónico para los consumidores buscan combinar la ubicación del dispositivo móvil y las preferencias personales para hacer ofertas de marketing de tiempo limitado. En términos operativos, las experiencias de aplicaciones móviles tienen una mayor cantidad de usuarios, un mayor tráfico de red y la expectativa de respuestas inmediatas.


Variedad. Nuevos tipos de datos no estructurados. Los tipos de datos no estructurados o semi-estructurados, como texto, audio y video, requieren un procesamiento adicional para extraer el significado y los metadatos de respaldo. Una vez comprendidos, los datos no estructurados tienen muchos de los mismos requisitos que los datos estructurados, como resumen, linaje y privacidad. Surgen complejidades adicionales cuando los datos de una fuente conocida cambian sin previo aviso. Los cambios de esquema frecuentes o en tiempo real son una carga enorme para los entornos de transacción y análisis.


Valor. Los datos tienen un valor intrínseco, pero debe ser descubierto. Hay una variedad de técnicas cuantitativas y de investigación para extraer el valor de los datos; desde descubrir una preferencia u opinión del consumidor a realizar una oferta importante por ubicación o identificar una pieza del equipo que está a punto de fallar.


Tipos de datos en Big Data

Para aclarar qué es lo que se recoge para el análisis, podemos dividirlos en dos grandes categorías:

Datos estructurados. Aquellos que tienen longitud y formato (por ejemplo fechas) y que pueden ser almacenados en tablas (como las bases de datos relacionales). En esta categoría entran los que se compilan en los censos de población, los diferentes tipos de encuestas, los datos de transacciones bancarias, las compras en tiendas online, etc.


Datos no estructurados. Son los que carecen de un formato determinado y no pueden ser almacenados en una tabla. Pueden ser de tipo texto (los que generan los usuarios de foros, redes sociales, documentos de Word), y los de tipo no-texto (cualquier fichero de imagen, audio, vídeo). Dentro de esta categoría, podemos añadir los Datos semi-estructurados, que son los que no pertenecen a bases de datos relacionales ya que no se limitan a campos determinados, aunque poseen organización interna o marcadores que facilita el tratamiento de sus elementos; estaríamos hablando de documentos XML, HTML o los datos almacenados en bases de datos NoSQL.

Referencias

Oracle. (2015). ¿Qué son los big data?. 14 de mayo de 2017, de Oracle Sitio web: https://www.oracle.com/lad/big-data/index.html

Stephanie Ollive y Juan Carlos Acero Linares. (2015). El Big Data: ¿Qué es y para qué sirve?. 14 de mayo de 2017, de CoREGISTROS Sitio web: https://www.coregistros.com/2016/07/07/el-big-data-que-es-y-para-que-sirve/

Comentarios

Entradas populares de este blog

Proceso de SCRUM

Topologías de red

Ingeniería de software - Definiciones