Glosario Big Data

Cada campo tiene su propia terminología y por lo tanto, hay un número de términos que hay que conocer al comenzar un curso de Big Data. Ahora que ya estás un poco más cerca de dar un paso más, necesitas comprender algunos términos necesarios con los que trabajan cada día los científicos de datos, una profesión cada vez más demandada.

Algoritmo:

Ayuda en la búsqueda de patrones y relaciones entre variables entre tanta cantidad de datos. Los algoritmos son pilares básicos y necesarios de las actividades digitales y tecnológicas de hoy en día. En los negocios es un elemento que ayuda a comprender el comportamiento de los clientes.

Big Data

El concepto de Big Data hace referencia al almacenamiento, procesamiento y gestión de un conjunto de datos o combinaciones de conjuntos de datos, que pueden ser tanto estructurados como no estructurados, en una velocidad prácticamente en tiempo real o streaming.

Cassandra

Es un sistema de gestión de bases de datos NoSQL de código abierto y distribuido. Está diseñado para gestionar una gran cantidad de datos distribuidos en servidores de productos básicos, ya que proporciona una alta disponibilidad de servicios sin punto de fallo. Fue desarrollado inicialmente por Facebook y luego estructurado en forma de valor clave bajo la fundación Apache.

Data Scince

Involucra métodos científicos, procesos y modelos para llevar a cabo esta extracción de valor. El Data Science incluye campos de análisis como la analítica descriptiva, la estadística, el data mining o minería de datos o el machine learning.

ETL

ETL es la forma corta de tres funciones de base de datos: extraer, transformar y cargar. Estas tres funciones se combinan en una herramienta para colocarlas de una a otra base de datos.

Flume

Flume se define como un servicio fiable, distribuido y disponible para agregar, recoger y transferir una gran cantidad de datos en el HDFS. Es robusto por naturaleza. La arquitectura del canal es de naturaleza flexible, basada en el flujo de datos.

Gamification

La gamificación se refiere a los principios utilizados en el diseño del juego para mejorar la participación de los clientes en negocios no relacionados con el juego. Diferentes empresas utilizan diferentes principios de juego para mejorar el interés en un servicio o producto o simplemente podemos decir que la gamificación se utiliza para profundizar la relación de su cliente con la marca.

Keras

Es una biblioteca de redes neuronales artificiales de código abierto. Está desarrollada en Python y puede ejecutarse sobre diferentes plataformas como TensorFlow o Theano. Además, está diseñado para ir construyendo por bloques la arquitectura de cada red neuronal, incluyendo redes convolucionales y recurrentes.

Metadata

Los metadatos son datos sobre datos. Son datos administrativos, descriptivos y estructurales que identifican los bienes.

Python

Es un lenguaje de programación multiparadigma que se utiliza en la ciencia de datos. Python se utiliza para denominar a las librerías especializadas en automatic learning y generación de gráficos.

Query

Se entiende por query o consulta cualquier petición de datos hacia un servicio que los devuelva, como puede ser una base de datos. Aunque con distintos dialectos, este tipo de consultas, orientadas hacia bases de datos, suelen codificarse en lenguaje SQL (Standard Query Language).

Reference Data

Es el gran término de datos que define los datos utilizados para describir un objeto junto con sus propiedades. El objeto descrito por los datos de referencia puede ser de naturaleza virtual o física.

Small Data

ES término que se suele usar, por contraste frente a Big Data, para destacar que lo importante en muchas ocasiones no es tanto el tener una gran cantidad de datos, sino disponer de los datos adecuados para dar respuesta a las preguntas claves de una organización. Además, no se requiere de grandes infraestructuras y poder computacional para explotarlo.

Thrift

Se trata de un framework de software que se utiliza para el desarrollo de los servicios ascendentes de idiomas cruzados. Integra el motor de generación de código con la pila de software para desarrollar servicios que pueden funcionar sin problemas y de manera eficiente entre diferentes lenguajes de programación como Ruby, Java, PHP, C++, Python, C# y otros.

Weka

Es un software de machine learning de código abierto desarrollado en lenguaje Java por la universidad de Waikato, Nueva Zelanda. Uno de sus principales atractivos para los principiantes es su sencilla interfaz gráfica para el entrenamiento de modelos de machine learning. Cuenta con implementaciones de varios de los algoritmos más populares y permite configurar los parámetros, aplicar algunas transformaciones de datos, ejecutar el proceso de entrenamiento y evaluar y consultar los resultados, con algunas visualizaciones simples

Yottabyte

Es un término de big data relacionado con la medición de datos. Un yottabyte equivale a 1000 zettabytes o los datos almacenados en 250 trillones de DVDs.

Quiero conocer más del curso de Big Data