Más

¿Cómo cargar datos geográficos en Hadoop (Hive) y luego poder llamar a funciones espaciales en ellos?

¿Cómo cargar datos geográficos en Hadoop (Hive) y luego poder llamar a funciones espaciales en ellos?


Necesito cargar algunos datos geográficos en Hadoop (Hive), y luego, poder llamar a algunas funciones espaciales en ellos usando Hive.

Mi formato de datos de entrada es ESRI shapefiles (pero podría ser otro formato, podría transformar si es necesario).

Sé que ESRI ha lanzado un marco muy básico para trabajar con datos espaciales dentro de Hadoop a través de Hive, GIS Tools for Hadoop by ESRI, pero parece que necesito tener mis datos en ESRI JSON y no tengo herramientas ESRI para convertir mis datos en ese formato.

¿Hay alguna forma alternativa de cargar geodatos en Hadoop o hay alguna forma de convertir mis shapefiles ESRI en ESRI JSON?


ST_Geometry for Hive en las herramientas GIS para Hadoop, puede cargar datos de varios formatos diferentes: texto conocido (WKT), binario conocido (WKB), GeoJSON, Esri JSON y coordenadas como una lista de números. Consulte la documentación de las funciones del constructor.

En cuanto a shapefile, la biblioteca java para leer shapefiles de Mansour Raad puede ser de utilidad.


Las funciones de GDAL ogr2ogr (http://www.gdal.org/) le permitirán convertir shapefiles a cualquier número de formatos, incluidos JSON y WKT. Solo lo he usado para ir directamente a SQL Server Spatial, así que no conozco los comandos exactos. Puede ir directamente a GDAL: o puede probar QGIS (http://www.qgis.org/en/site/) para obtener una interfaz de usuario similar a ArcMap desde la que podría trabajar directamente, pero he encontrado que obtengo los mejores resultados de conversión usando el Shell de OSGeo4W (https://trac.osgeo.org/osgeo4w/) para escribir comandos.

Puede importar qué tipo de formas estés usando. He importado con éxito polígonos directamente a SQL con ogr2ogr, pero el uso de QGIS para convertir a WKT o JSON a menudo puede truncar polígonos complejos.


HDFS es el almacenamiento distribuido principal que utilizan las aplicaciones de Hadoop. Un clúster HDFS consta principalmente de un NameNode que administra los metadatos del sistema de archivos y los DataNodes que almacenan los datos reales. La guía de arquitectura HDFS describe HDFS en detalle. Esta guía del usuario trata principalmente de la interacción de usuarios y administradores con clústeres HDFS. El diagrama de la arquitectura HDFS describe las interacciones básicas entre NameNode, DataNodes y los clientes. Los clientes se comunican con NameNode para obtener metadatos de archivos o modificaciones de archivos y realizar E / S de archivos reales directamente con DataNodes.

Las siguientes son algunas de las características más destacadas que podrían ser de interés para muchos usuarios.

Hadoop, incluido HDFS, es muy adecuado para el almacenamiento distribuido y el procesamiento distribuido mediante hardware básico. Es tolerante a fallas, escalable y extremadamente simple de expandir. MapReduce, bien conocido por su simplicidad y aplicabilidad para un gran conjunto de aplicaciones distribuidas, es una parte integral de Hadoop.

HDFS es altamente configurable con una configuración predeterminada muy adecuada para muchas instalaciones. La mayoría de las veces, la configuración solo debe ajustarse para clústeres muy grandes.

Hadoop está escrito en Java y es compatible con todas las plataformas principales.

Hadoop admite comandos de tipo shell para interactuar con HDFS directamente.

NameNode y Datanodes tienen servidores web integrados que facilitan la verificación del estado actual del clúster.

Las nuevas funciones y mejoras se implementan regularmente en HDFS. El siguiente es un subconjunto de funciones útiles en HDFS:

Permisos y autenticación de archivos.

Concienciación sobre el rack: para tener en cuenta la ubicación física de un nodo al programar tareas y asignar almacenamiento.

Safemode: un modo administrativo para el mantenimiento.

fsck: una utilidad para diagnosticar el estado del sistema de archivos, para encontrar archivos o bloques faltantes.

fetchdt: una utilidad para buscar DelegationToken y almacenarlo en un archivo en el sistema local.

Balancer: herramienta para equilibrar el clúster cuando los datos se distribuyen de manera desigual entre DataNodes.

Actualización y reversión: después de una actualización de software, es posible retroceder al estado HDFS & # x2019 antes de la actualización en caso de problemas inesperados.

NameNode secundario: realiza puntos de control periódicos del espacio de nombres y ayuda a mantener el tamaño del archivo que contiene el registro de modificaciones de HDFS dentro de ciertos límites en el NameNode.

Nodo de punto de control: realiza puntos de control periódicos del espacio de nombres y ayuda a minimizar el tamaño del registro almacenado en el NameNode que contiene cambios en el HDFS. Reemplaza el rol previamente ocupado por el NameNode secundario, aunque aún no está endurecido. El NameNode permite múltiples nodos de Checkpoint simultáneamente, siempre que no haya nodos de respaldo registrados en el sistema.

Nodo de respaldo: una extensión del nodo Checkpoint. Además de los puntos de control, también recibe un flujo de ediciones del NameNode y mantiene su propia copia en memoria del espacio de nombres, que siempre está sincronizado con el estado activo del espacio de nombres NameNode. Solo se puede registrar un nodo de respaldo con NameNode a la vez.


Métodos y técnicas de SIG

1.11.2.2 Chispa

Apache Spark ( Fig. 3 ) es un marco informático en memoria para procesar datos a gran escala.

Fig. 3 . Ecosistema Apache Spark.

Spark aprovecha una gran cantidad de memoria al crear una estructura llamada Resilient Distributed Dataset (RDD). RDD permite el almacenamiento transparente de datos en memoria y puede conservar los datos almacenados en el disco cuando sea necesario. En comparación con Hadoop, Spark ha logrado una mejora significativa en el rendimiento informático al eliminar la lectura y escritura frecuentes en el disco. Otra ventaja de Spark es que el estado de los recursos informáticos asignados a una tarea informática se mantiene hasta la finalización de la tarea, que es diferente de Hadoop, donde los recursos se aprovisionan y liberan con frecuencia incluso para la misma tarea. En el análisis de datos espaciales donde se requiere una cadena de análisis múltiples, Spark tiene una ventaja obvia sobre Hadoop debido a los diferentes recursos informáticos y mecanismos de proceso. También para los análisis espaciales que tienen iteraciones, Spark puede superar claramente a Hadoop. Otro punto fuerte de Spark es que ha incluido en el marco soportes para el proceso de transmisión, el aprendizaje automático y el procesamiento gráfico. Por lo tanto, para el análisis espacial en tiempo real, Spark es una plataforma ideal. Además, el marco tiene interfaces para múltiples lenguajes de programación como Python y R.


2.3 Marco de procesamiento de imágenes de Oracle Big Data Spatial Hadoop para el procesamiento de datos ráster

Oracle Spatial Hadoop Image Processing Framework permite la creación de nuevas imágenes combinadas resultantes de una serie de fases de procesamiento en paralelo con las siguientes características:

Almacenamiento de imágenes HDFS, donde cada tamaño de bloque dividido se almacena como una imagen separada

Operaciones de subconjunto y definidas por el usuario procesadas en paralelo utilizando el marco MapReduce

Posibilidad de agregar clases de procesamiento personalizadas para que se ejecuten en paralelo de manera transparente

Procesamiento rápido de imágenes georreferenciadas

Soporte para formatos GDAL, imágenes de múltiples bandas, DEM (modelos digitales de elevación), múltiples profundidades de píxeles y SRID

El marco de procesamiento de imágenes de Oracle Spatial Hadoop consta de dos módulos, un cargador y un procesador, cada uno representado por un trabajo de Hadoop que se ejecuta en diferentes etapas de un clúster, como se representa en el siguiente diagrama. Además, puede cargar y procesar las imágenes mediante la aplicación web del servidor de imágenes.

Para obtener información sobre la instalación y la configuración, consulte:

2.3.1 Cargador de imágenes

Image Loader es un trabajo de Hadoop que carga una imagen específica o un grupo de imágenes en HDFS.

Durante la importación, la imagen se crea en mosaico y se almacena como un bloque HDFS.

GDAL se utiliza para colocar la imagen en mosaico.

Cada mosaico es cargado por un mapeador diferente, por lo que la lectura es paralela y más rápida.

Cada mosaico incluye un cierto número de bytes superpuestos (entrada del usuario), de modo que el área de cobertura del mosaico forma los mosaicos adyacentes.

Un trabajo de MapReduce utiliza un asignador para cargar la información de cada mosaico. Hay 'n' cantidad de mapeadores, según la cantidad de mosaicos, la resolución de la imagen y el tamaño del bloque.

Una sola fase de reducción por imagen reúne toda la información cargada por los mapeadores y almacena las imágenes en un formato especial .ohif, que contiene la resolución, bandas, compensaciones y datos de la imagen. De esta forma se conoce el desplazamiento del archivo que contiene cada mosaico y la ubicación del nodo.

Cada mosaico contiene información para cada banda. Esto es útil cuando es necesario procesar solo unos pocos mosaicos y luego solo se cargan los bloques correspondientes.

El siguiente diagrama representa un proceso de Cargador de imágenes:


Descripción de la ilustración image_loader_job.png

2.3.2 Procesador de imágenes

El procesador de imágenes es un trabajo de Hadoop que filtra los mosaicos que se procesarán en función de la entrada del usuario y realiza el procesamiento en paralelo para crear una nueva imagen.

Procesa mosaicos específicos de la imagen identificada por el usuario. Puede identificar una, cero o varias clases de procesamiento. Después de la ejecución de las clases de procesamiento, se realiza una operación de mosaico para adaptar los píxeles al formato de salida final solicitado por el usuario.

Un mapeador carga los datos correspondientes a un mosaico, conservando la localidad de datos.

Una vez cargados los datos, el mapeador filtra las bandas solicitadas por el usuario.

La información filtrada se procesa y se envía a cada mapeador en la fase de reducción, donde se juntan los bytes y se almacena una imagen procesada final en HDFS o en el sistema de archivos normal, según la solicitud del usuario.

El siguiente diagrama representa un trabajo del procesador de imágenes:


Descripción de la ilustración image_processor_job.png

2.3.3 Servidor de imágenes

El servidor de imágenes es una aplicación web que le permite cargar y procesar imágenes de diferentes y diversas fuentes, especialmente del sistema de archivos Hadoop (HDFS). Este servidor de imágenes de Oracle tiene dos aplicaciones principales:

Procesamiento de imágenes ráster para crear catálogos a partir de las imágenes de origen y procesarlos en una sola unidad. También puede ver las miniaturas de las imágenes.

Configuración de la consola Hadoop, tanto servidor como consola. Se conecta al clúster de Hadoop para cargar imágenes en HDFS para su posterior procesamiento.


Cargando datos de Avro en una nueva tabla

Puede cargar datos de Avro en una nueva tabla de las siguientes formas:

  • Usando la consola de la nube.
  • Usando el comando bq load en la herramienta de línea de comandos bq.
  • Llamar al método de API jobs.insert y configurar un trabajo de carga.
  • Utilizando las bibliotecas cliente.

Para cargar datos de Avro desde Cloud Storage en una nueva tabla de BigQuery:

Consola

En Cloud Console, abra la página de BigQuery.

En el Explorador panel, expanda su proyecto y seleccione un conjunto de datos.

Expandir more_vert Comportamiento opción y haga clic en Abierto.

En el panel de detalles, haga clic en Crear mesa add_box.

Sobre el Crear mesa página, en la Fuente sección:

Para Crear tabla desde, Seleccione Almacenamiento en la nube de Google.

En el campo de origen, busque o ingrese el URI de Cloud Storage. Tenga en cuenta que no puede incluir varios URI en Cloud Console, pero se admiten comodines. El depósito de Cloud Storage debe estar en la misma ubicación que el conjunto de datos que contiene la tabla que estás creando.

Para Formato de archivo, Seleccione Avro.

Sobre el Crear mesa página, en la Destino sección:

Para Nombre del conjunto de datos, elija el conjunto de datos apropiado.

Comprueba eso Tipo de mesa se establece en Mesa nativa.

En el Nombre de la tabla , ingrese el nombre de la tabla que está creando en BigQuery.

En el Esquema sección, no es necesario realizar ninguna acción. El esquema se describe a sí mismo en archivos Avro.

(Opcional) Para dividir la tabla, elija sus opciones en el Configuración de partición y clúster. Para obtener más información, consulte Creación de tablas particionadas.

(Opcional) Para Filtro de particionamiento, haga clic en el Requerir filtro de partición box para requerir que los usuarios incluyan una cláusula WHERE que especifique las particiones a consultar. Requerir un filtro de partición puede reducir los costos y mejorar el rendimiento. Para obtener más información, consulte Consulta de tablas particionadas. Esta opción no está disponible si Sin particiones está seleccionado.

(Opcional) Para agrupar la tabla, en el Orden de agrupación cuadro, ingrese entre uno y cuatro nombres de campo.

(Opcional) Haga clic en Opciones avanzadas.

  • Para Preferencia de escritura, abandonar Escriba si está vacío seleccionado. Esta opción crea una nueva tabla y carga sus datos en ella.
  • Para Valores desconocidos, abandonar Ignorar valores desconocidos despejado. Esta opción se aplica solo a archivos CSV y JSON.
  • Para Cifrado, haga clic en Clave administrada por el cliente utilizar una clave del Servicio de gestión de claves en la nube Si dejas el Clave administrada por Google configuración, BigQuery cifra los datos en reposo.

Hacer clic Crear mesa.

Una vez creada la tabla, puedes actualizar el vencimiento, la descripción y las etiquetas de la tabla, pero no puedes agregar el vencimiento de una partición después de que se crea una tabla con Cloud Console. Para obtener más información, consulte Gestión de tablas.

Usa el comando bq load, especifica AVRO con la marca --source_format e incluye un URI de Cloud Storage. Puede incluir un único URI, una lista de URI separados por comas o un URI que contenga un comodín.

(Opcional) Proporcione la marca --location y establezca el valor en su ubicación.

Otras banderas opcionales incluyen:

  • --time_partitioning_type: habilita la partición basada en el tiempo en una tabla y establece el tipo de partición. Los valores posibles son HORA, DÍA, MES y AÑO. Esta marca es opcional cuando crea una tabla particionada en una columna DATE, DATETIME o TIMESTAMP. El tipo de partición predeterminado para el particionamiento basado en el tiempo es DÍA.
  • --time_partitioning_expiration: un número entero que especifica (en segundos) cuándo se debe eliminar una partición basada en el tiempo. El tiempo de vencimiento se evalúa según la fecha UTC de la partición más el valor entero.
  • --time_partitioning_field: La columna DATE o TIMESTAMP utilizada para crear una tabla particionada. Si la partición basada en el tiempo está habilitada sin este valor, se crea una tabla particionada por tiempo de ingestión.
  • --require_partition_filter: cuando está habilitada, esta opción requiere que los usuarios incluyan una cláusula WHERE que especifique las particiones a consultar. Requerir un filtro de partición puede reducir los costos y mejorar el rendimiento. Para obtener más información, consulte Consulta de tablas particionadas.
  • --clustering_fields: una lista separada por comas de hasta cuatro nombres de columna que se utilizan para crear una tabla agrupada.

--destination_kms_key: la clave de Cloud KMS para el cifrado de los datos de la tabla.

Para obtener más información sobre tablas particionadas, consulte:

Para obtener más información sobre tablas agrupadas, consulte:

Para obtener más información sobre el cifrado de tablas, consulte:

Para cargar datos de Avro en BigQuery, ingrese el siguiente comando:

  • ubicación es tu ubicación. La marca --location es opcional. Por ejemplo, si usa BigQuery en la región de Tokio, puede establecer el valor de flag & # 39s en asia -heast1. Puede establecer un valor predeterminado para la ubicación mediante el archivo .bigqueryrc.
  • el formato es AVRO.
  • conjunto de datos es un conjunto de datos existente.
  • tabla es el nombre de la tabla en la que está cargando datos.
  • path_to_source es un URI de Cloud Storage completamente calificado o una lista de URI separados por comas. También se admiten comodines.

El siguiente comando carga datos de gs: //mybucket/mydata.avro en una tabla llamada mytable en mydataset.

El siguiente comando carga datos de gs: //mybucket/mydata.avro en una tabla particionada en tiempo de ingestión llamada mytable en mydataset.

El siguiente comando carga datos de gs: //mybucket/mydata.avro en una tabla particionada llamada mytable en mydataset. La tabla está dividida en la columna mytimestamp.

El siguiente comando carga datos de varios archivos en gs: // mybucket / en una tabla llamada mytable en mydataset. El URI de Cloud Storage usa un comodín.

El siguiente comando carga datos de varios archivos en gs: // mybucket / en una tabla llamada mytable en mydataset. El comando incluye una lista separada por comas de URI de Cloud Storage con comodines.

Crea un trabajo de carga que apunte a los datos de origen en Cloud Storage.

(Opcional) Especifique su ubicación en la propiedad de ubicación en la sección jobReference del recurso de trabajo.

La propiedad de los URI de origen debe estar completamente calificada, en el formato gs: // depósito / objeto. Cada URI puede contener un carácter comodín & # 39 & # 42 & # 39.

Especifique el formato de datos de Avro estableciendo la propiedad sourceFormat en AVRO.

Para comprobar el estado del trabajo, llame a jobs.get (job_id *), donde job_id es el ID del trabajo devuelto por la solicitud inicial.

  • Si status.state = DONE, el trabajo se completó correctamente.
  • Si la propiedad status.errorResult está presente, la solicitud falló y ese objeto incluirá información que describe qué salió mal. Cuando falla una solicitud, no se crea ninguna tabla y no se cargan datos.
  • Si status.errorResult está ausente, el trabajo finalizó correctamente, aunque puede haber algunos errores no fatales, como problemas al importar algunas filas. Los errores no fatales se enumeran en la propiedad status.errors del objeto de trabajo devuelto.

Los trabajos de carga son atómicos y consistentes si un trabajo de carga falla, ninguno de los datos está disponible y, si un trabajo de carga tiene éxito, todos los datos están disponibles.

Como práctica recomendada, genere un ID único y páselo como jobReference.jobId cuando llame a jobs.insert para crear un trabajo de carga. Este enfoque es más robusto ante fallas en la red porque el cliente puede sondear o reintentar en el ID de trabajo conocido.

Llamar a jobs.insert en un ID de trabajo determinado es idempotente. Puede volver a intentarlo tantas veces como desee con el mismo ID de trabajo y, como máximo, una de esas operaciones se realizará correctamente.

Node.js

Antes de probar esta muestra, siga las instrucciones de configuración de Node.js en el Inicio rápido de BigQuery con bibliotecas cliente. Para obtener más información, consulte la documentación de referencia de la API de BigQuery Node.js.

Pitón

Antes de probar esta muestra, siga las instrucciones de configuración de Python en la Guía de inicio rápido de BigQuery con bibliotecas cliente. Para obtener más información, consulte la documentación de referencia de la API de Python de BigQuery.


Carga de datos JSON anidados y repetidos

BigQuery admite la carga de datos anidados y repetidos desde formatos de origen que admiten esquemas basados ​​en objetos, como JSON, Avro, ORC, Parquet, Firestore y Datastore.

Un objeto JSON, incluidos los campos anidados / repetidos, debe aparecer en cada línea.

El siguiente ejemplo muestra una muestra de datos anidados / repetidos. Esta tabla contiene información sobre personas. Consta de los siguientes campos:

  • identificación
  • primer nombre
  • apellido
  • dob (fecha de nacimiento)
  • direcciones (un campo anidado y repetido)
    • address.status (actual o anterior)
    • direcciones dirección
    • direcciones.ciudad
    • address.state
    • direcciones.zip
    • address.numberOfYears (años en la dirección)

    El archivo de datos JSON tendría el siguiente aspecto. Observe que el campo de dirección contiene una matriz de valores (indicados por []).

    El esquema de esta tabla tendría el siguiente aspecto:

    Para obtener información sobre cómo especificar un esquema anidado y repetido, consulte Especificación de campos anidados y repetidos.


    2.4 Cargar una imagen en Hadoop usando Image Loader

    El primer paso para procesar imágenes utilizando Oracle Spatial and Graph Hadoop Image Processing Framework es tener las imágenes en HDFS, seguido de separar las imágenes en mosaicos inteligentes. Esto permite que el trabajo de procesamiento funcione por separado en cada mosaico de forma independiente. Image Loader le permite importar una sola imagen o una colección de ellas en HDFS en paralelo, lo que reduce el tiempo de carga.

    Image Loader importa imágenes de un sistema de archivos a HDFS, donde cada bloque contiene datos para todas las bandas de la imagen, de modo que si se requiere un procesamiento adicional en posiciones específicas, la información se puede procesar en un solo nodo.

    2.4.1 Trabajo de carga de imágenes

    El trabajo de carga de imágenes tiene su formato de entrada personalizado que divide la imagen en divisiones de imágenes relacionadas. Las divisiones se calculan en base a un algoritmo que lee bloques cuadrados de la imagen que cubren un área definida, que está determinada por

    área = ((blockSize - bytes de metadatos) / número de bandas) / bytes por píxel.

    Para aquellas piezas que no utilizan el tamaño de bloque completo, los bytes restantes se rellenan con ceros.

    Las divisiones se asignan a diferentes mapeadores donde cada mosaico asignado se lee usando GDAL según la información de ImageSplit. Como resultado, se crea una instancia ImageDataWritable y se guarda en el contexto.

    Las clases de procesamiento utilizan los metadatos establecidos en la instancia ImageDataWritable para configurar la imagen en mosaico con el fin de manipularla y procesarla. Dado que las imágenes de origen se leen desde múltiples mapeadores, la carga se realiza en paralelo y más rápido.

    Una vez que los mapeadores terminan de leer, el reductor toma los mosaicos del contexto y los junta para guardar el archivo en HDFS. Se requiere un proceso de lectura especial para volver a leer la imagen.

    2.4.2 Parámetros de entrada

    Los siguientes parámetros de entrada se proporcionan al comando Hadoop:

    • SOURCE_IMGS_PATH es una ruta a las imágenes o carpetas de origen. Para múltiples entradas, use un separador de coma. Esta ruta debe ser accesible a través de NFS para todos los nodos del clúster.
    • HDFS_OUTPUT_FOLDER es la carpeta de salida HDFS donde se almacenan las imágenes cargadas.
    • OVERLAPPING_PIXELS es un número opcional de píxeles superpuestos en los bordes de cada mosaico; si no se especifica este parámetro, se considera un valor predeterminado de dos píxeles superpuestos.
    • GDAL_LIB_PATH es la ruta donde se ubican las bibliotecas GDAL.
    • GDAL_DATA_PATH es la ruta donde se encuentra la carpeta de datos GDAL. Esta ruta debe ser accesible a través de NFS para todos los nodos del clúster.
    • THUMBNAIL_PATH es una ruta opcional para almacenar una miniatura de las imágenes cargadas. Esta ruta debe ser accesible a través de NFS para todos los nodos del clúster y debe tener permiso de acceso de escritura para los usuarios de yarn.
    • -expand controla si la ruta HDFS del ráster cargado expande la ruta de origen, incluidos todos los directorios. Si establece esto en falso, el archivo .ohif se almacena directamente en el directorio de salida (especificado usando la opción -o) sin incluir ese directorio y la ruta rsquos en el ráster.
    • -extractLogs controla si los registros de la aplicación ejecutada deben extraerse al directorio temporal del sistema. De forma predeterminada, no está habilitado. La extracción no incluye registros que no forman parte de las clases de Oracle Framework.
    • -logFilter & ltLINES_TO_INCLUDE_IN_LOG & gt es una cadena separada por comas que enumera todos los patrones para incluir en los registros extraídos, por ejemplo, para incluir paquetes de clases de procesamiento personalizado.

    Por ejemplo, el siguiente comando carga todas las imágenes georreferenciadas en la carpeta de imágenes y agrega una superposición de 10 píxeles en cada borde posible. La carpeta de salida HDFS es la más reciente y las miniaturas de la imagen cargada se almacenan en la carpeta de prueba del proceso.

    De forma predeterminada, los asignadores y reductores están configurados para obtener 2 GB de JVM, pero los usuarios pueden anular esta configuración o cualquier otra propiedad de configuración del trabajo agregando un archivo de propiedades imagejob.prop en la misma ubicación de carpeta desde donde se ejecuta el comando. Este archivo de propiedades puede enumerar todas las propiedades de configuración que desea anular. Por ejemplo,

    La memoria del montón de Java (propiedades de java.opts) debe ser igual o menor que la memoria total asignada a los mapeadores y reductores (mapreduce.map.memory y mapreduce.reduce.memory). Por lo tanto, si aumenta la memoria del montón de Java, es posible que también necesite aumentar la memoria para mapeadores y reductores.

    2.4.3 Parámetros de salida

    El reductor genera dos archivos de salida por imagen de entrada. El primero es el archivo .ohif que concentra todos los mosaicos para la imagen de origen, cada mosaico puede ser procesado como una instancia separada por un mapeador de procesamiento. Internamente, cada mosaico se almacena como un bloque HDFS, los bloques se encuentran en varios nodos, un nodo puede contener uno o más bloques de un archivo .ohif específico. El archivo .ohif se almacena en la carpeta especificada por el usuario con el indicador -out, bajo / user / & ltUSER_EXECUTING_JOB & gt / OUT_FOLDER / & ltPARENT_DIRECTORIES_OF_SOURCE_RASTER & gt si no se utilizó el indicador & ndashexpand. De lo contrario, el archivo .ohif se ubicará en / user / & ltUSER_EXECUTING_JOB & gt / OUT_FOLDER /, y el archivo se puede identificar como original_filename.ohif.

    La segunda salida es un archivo de metadatos relacionados que enumera todas las piezas de la imagen y las coordenadas que cubre cada una. El archivo se encuentra en HDFS bajo la ubicación de los metadatos y su nombre es un hash generado utilizando el nombre del archivo ohif. Este archivo es solo para uso interno de Oracle y enumera metadatos importantes del ráster de origen. Algunas líneas de ejemplo de un archivo de metadatos:

    Si se especificó el indicador -thumbnail, se almacena una miniatura de la imagen de origen en la carpeta relacionada. Esta es una forma de visualizar una traducción del archivo .ohif. Se puede acceder a los registros de ejecución de trabajos mediante el comando yarn logs -applicationId & ltapplicationId & gt.


    101 términos de Big Data: el glosario de Big Data

    Cada campo tiene su propia terminología y, por lo tanto, hay una serie de términos de Big Data que debe conocer al comenzar una carrera en Big Data. Una vez que se familiarice con estos términos y definiciones de Big Data, estará preparado para aprenderlos en detalle. En este artículo vamos a definir 101 términos de Big Data que debes conocer para iniciar una carrera en Big Data.

    A

    1. Algoritmo

    En ciencias de la computación y matemáticas, un algoritmo es una especificación categórica efectiva de cómo resolver un problema complejo y cómo realizar análisis de datos. Consiste en varios pasos para aplicar operaciones sobre datos con el fin de resolver un problema en particular.

    2. Inteligencia artificial (IA)

    El término popular de Big Data, Inteligencia Artificial, es la inteligencia demostrada por las máquinas. La IA es el desarrollo de sistemas informáticos para realizar tareas que normalmente tienen inteligencia humana, como el reconocimiento de voz, la percepción visual, la toma de decisiones y los traductores de idiomas, etc.

    3. Identificación automática y captura de datos (AIDC)

    La identificación automática y captura de datos (AIDC) es el término de big data que se refiere a un método para identificar y recopilar automáticamente objetos de datos a través de un algoritmo informático y luego almacenarlos en la computadora. Por ejemplo, identificación por radiofrecuencia, códigos de barras, biometría, reconocimiento óptico de caracteres, bandas magnéticas, todos incluyen algoritmos para la identificación de los objetos de datos capturados.

    4. Avro

    Avro es un marco de serialización de datos y una llamada a procedimiento remoto desarrollado para el proyecto de Hadoop. Utiliza JSON para definir protocolos y tipos de datos y luego serializa los datos en forma binaria. Avro proporciona tanto

    • Formato de serialización para datos persistentes
    • Formato de cable para la comunicación entre los nodos de Hadoop y desde los programas del cliente a los servicios de Hadoop.

    B

    5. Análisis de comportamiento

    El análisis de comportamiento es un avance reciente en el análisis de negocios que presenta nuevos conocimientos sobre el comportamiento del cliente en plataformas de comercio electrónico, aplicaciones web / móviles, juegos en línea, etc. Permite a los especialistas en marketing hacer ofertas adecuadas a los clientes adecuados en el momento adecuado.

    6. Inteligencia empresarial

    Business Intelligence es un conjunto de herramientas y metodologías que pueden analizar, administrar y entregar información relevante para el negocio. Incluye herramientas de informes / consultas y un panel de control que se encuentran en el análisis. Las tecnologías de BI proporcionan vistas anteriores, actuales y futuras de las operaciones comerciales.

    7. Científico de Big Data

    Big Data Scientist es una persona que puede tomar puntos de datos estructurados y no estructurados y usar sus formidables habilidades en estadística, matemáticas y programación para organizarlos. Aplica todo su poder analítico (comprensión contextual, conocimiento de la industria y comprensión de los supuestos existentes) para descubrir las soluciones ocultas para el desarrollo empresarial.

    8. Biometria

    La biometría es la tecnología de James Bondish vinculada con la analítica para identificar a las personas por uno o más rasgos físicos. Por ejemplo, la tecnología biométrica se utiliza en reconocimiento facial, reconocimiento de huellas dactilares, reconocimiento de iris, etc.

    C

    9. En cascada

    La cascada es la capa para la abstracción de software que proporciona la abstracción de nivel superior para Apache Hadoop y Apache Flink. Es un marco de código abierto que está disponible bajo licencia Apache. Se utiliza para permitir a los desarrolladores realizar el procesamiento de datos complejos de manera fácil y rápida en lenguajes basados ​​en JVM como Java, Clojure, Scala, Rubi, etc.

    10. Análisis de registro de detalles de llamadas (CDR)

    El CDR contiene metadatos, es decir, datos sobre los datos que una empresa de telecomunicaciones recopila sobre las llamadas telefónicas, como la duración y la hora de la llamada. El análisis de CDR proporciona a las empresas los detalles exactos sobre cuándo, dónde y cómo se realizan las llamadas con fines de facturación e informes. Los metadatos de CDR brindan información sobre

    • Cuándo se realizan las llamadas (fecha y hora)
    • Cuánto duró la llamada (en minutos)
    • Quién llamó a quién (número de contacto de origen y destino)
    • Tipo de llamada (entrante, saliente o gratuita)
    • Cuánto cuesta la llamada (sobre la base de la tarifa por minuto)

    11. Cassandra

    Cassandra es un sistema de gestión de bases de datos NoSQL de código abierto y distribuido. Está diseñado para administrar una gran cantidad de datos distribuidos a través de servidores básicos, ya que proporciona una alta disponibilidad de servicios sin ningún punto de falla. Fue desarrollado por Facebook inicialmente y luego estructurado en forma de valor clave bajo la base de Apache.

    12. Datos del teléfono celular

    Los datos de teléfonos móviles han surgido como una de las fuentes de big data, ya que generan una enorme cantidad de datos y muchos de ellos están disponibles para su uso con aplicaciones analíticas.

    13. Computación en la nube

    La computación en la nube es uno de los términos de big data más conocidos. Es un sistema informático de nuevo paradigma que ofrece visualización de recursos informáticos para ejecutar en el servidor remoto estándar para almacenar datos y proporciona IaaS, PaaS y SaaS. Cloud Computing proporciona recursos de TI como infraestructura, software, plataforma, base de datos, almacenamiento, etc., como servicios. Escalado flexible, elasticidad rápida, agrupación de recursos, autoservicio bajo demanda son algunos de sus servicios.

    14. Análisis de conglomerados

    El análisis de clústeres es el término de big data relacionado con el proceso de agrupación de objetos similares entre sí en el grupo común (clúster). Se hace para comprender las similitudes y diferencias entre ellos. Es la tarea importante de la minería de datos exploratoria y las estrategias comunes para analizar datos estadísticos en varios campos, como análisis de imágenes, reconocimiento de patrones, aprendizaje automático, gráficos por computadora, compresión de datos, etc.

    15. Chukwa

    Apache Chukwa es un sistema de recopilación de registros a gran escala de código abierto para monitorear grandes sistemas distribuidos. Es uno de los términos comunes de big data relacionados con Hadoop. Está construido sobre la parte superior del sistema de archivos distribuido Hadoop (HDFS) y el marco Map / Reduce. Hereda la robustez y escalabilidad de Hadoop. Chukwa contiene una base de datos de herramientas poderosa y flexible para monitorear, mostrar y analizar los resultados para que los datos recopilados se puedan utilizar de la mejor manera posible.

    16. Base de datos en columnas / Base de datos orientada a columnas

    Una base de datos que almacena datos columna por columna en lugar de la fila se conoce como la base de datos orientada a columnas.

    17. Base de datos comparativa orientada al análisis

    La analítica comparativa es un tipo especial de tecnología de minería de datos que compara grandes conjuntos de datos, múltiples procesos u otros objetos utilizando estrategias estadísticas como filtrado, análisis de árboles de decisión, análisis de patrones, etc.

    18. Procesamiento de eventos complejos (CEP)

    El procesamiento de eventos complejos (CEP) es el proceso de analizar e identificar datos y luego combinarlos para inferir eventos que pueden sugerir soluciones a las circunstancias complejas. La tarea principal de CEP es identificar / rastrear eventos significativos y reaccionar ante ellos lo antes posible.

    D

    19. Analista de datos

    El analista de datos es responsable de recopilar, procesar y realizar análisis estadísticos de datos. Un analista de datos descubre las formas en que se pueden utilizar estos datos para ayudar a la organización a tomar mejores decisiones comerciales. Es uno de los términos de Big Data que define una carrera de Big Data. El analista de datos trabaja con los usuarios finales de la empresa para definir los tipos de informes analíticos necesarios en la empresa.

    20. Data Aggregation

    Data aggregation refers to the collection of data from multiple sources to bring all the data together into a common athenaeum for the purpose of reporting and/or analysis.

    The knowledge of one of the high-level programming languages is required to build a career in Big Data. Let’s check out which are the Top 3 Big Data Programming Languages for You!

    21. Dashboard

    It is a graphical representation of analysis performed by the algorithms. This graphical report shows different color alerts to show the activity status. A green light is for the normal operations, a yellow light shows that there is some impact due to operation and a red light signifies that the operation has been stopped. This alertness with different lights helps to track the status of operations and find out the details whenever required.

    22. Data Scientist

    Data Scientist is also a big data term that defines a big data career. A data scientist is a practitioner of data science. He is proficient in mathematics, statistics, computer science, and/or data visualization who establish data models and algorithms for complex problems to solve them.

    23. Data Architecture and Design

    In IT industry, Data architecture consists of models, policies standards or rules that control which data is aggregated, and how it is arranged, stored, integrated and brought to use in data systems. It has three phases

    • Conceptual representation of business entities
    • The logical representation of the relationships between business entities
    • The physical construction of the system for functional support

    24. Database administrator (DBA)

    DBA is the big data term related to a role which includes capacity planning, configuration, database design, performance monitoring, migration, troubleshooting, security, backups and data recovery. DBA is responsible for maintaining and supporting the rectitude of content and structure of a database.

    25. Database Management System (DBMS)

    Database Management System is software that collects data and provides access to it in an organized layout. It creates and manages the database. DBMS provides programmers and users a well-organized process to create, update, retrieve, and manage data.

    26. Data Model and Data Modelling

    Data Model is a starting phase of a database designing and usually consists of attributes, entity types, integrity rules, relationships and definitions of objects.

    Data modeling is the process of creating a data model for an information system by using certain formal techniques. Data modeling is used to define and analyze the requirement of data for supporting business processes.

    Looking for big data tools to start a big data career? Here are the Top 10 Open Source Big Data Tools in 2018.

    27. Data Cleansing

    Data Cleansing/Scrubbing/Cleaning is a process of revising data to remove incorrect spellings, duplicate entries, adding missing data, and providing consistency. It is required as incorrect data can lead to bad analysis and wrong conclusions.

    28. Document Management

    Document management, often, referred to as Document management system is a software which is used to track, store, and manage electronic documents and an electronic image of paper through a scanner. It is one of the basic big data terms you should know to start a big data career.

    29. Data Visualization

    Data visualization is the presentation of data in a graphical or pictorial format designed for the purpose of communicating information or deriving meaning. It validates the users/decision makers to see analytics visually so that they would be able to understand the new concepts. This data helps –

    • to derive insight and meaning from the data
    • in the communication of data and information in a more effective manner

    30. Data Warehouse

    The data warehouse is a system of storing data for the purpose of analysis and reporting. It is believed to be the main component of business intelligence. Data stored in the warehouse is uploaded from the operational system like sales or marketing.

    31. Drill

    The drill is an open source, distributed, low latency SQL query engine for Hadoop. It is built for semi-structured or nested data and can handle fixed schemas. The drill is similar in some aspects to Google’s Dremel and is handled by Apache.

    Mi

    32. Extract, Transform, and Load (ETL)

    ETL is the short form of three database functions extract, transform and load. These three functions are combined together into one tool to place them from one to another database.

    It is the process of reading data from a database.

    It is the process of conversion of extracted data in the desired form so that it can be put into another database.

    It is the process of writing data into the target database

    F

    33. Fuzzy Logic

    Fuzzy logic is an approach to computing based on degrees of truth instead of usual true/false (1 or 0) Boolean algebra.

    34. Flume

    Flume is defined as a reliable, distributed, and available service for aggregating, collecting, and transferring huge amount of data in HDFS. It is robust in nature. Flume architecture is flexible in nature, based on data streaming.

    G

    35. Graph Database

    A graph database is a group/collection of edges and nodes. A node typifies an entity i.e. business or individual whereas an edge typifies a relation or connection between nodes.

    You must remember the statement given by graph database experts –

    “If you can whiteboard it, you can graph it.”

    36. Grid Computing

    Grid computing is a collection of computer resources for performing computing functions using resources from various domains or multiple distributed systems to reach a specific goal. A grid is designed to solve big problems to maintain the process flexibility. Grid computing is often used in scientific/marketing research, structural analysis, web services such as back-office infrastructures or ATM banking etc.

    37. Gamification

    Gamification refers to the principles used in designing the game to improve customer engagement in non-game businesses. Different companies use different gaming principles to enhance interest in a service or product or simply we can say gamification is used to deepen their client’s relationship with the brand.

    H

    38. Hadoop User Experience (HUE)

    Hadoop User Experience (HUE) is an open source interface which makes Apache Hadoop’s use easier. It is a web-based application. It has a job designer for MapReduce, a file browser for HDFS, an Oozie application for making workflows and coordinators, an Impala, a shell, a Hive UI, and a group of Hadoop APIs.

    39. High-Performance Analytical Application (HANA)

    High-performance Analytical Application is a software/hardware scheme for large volume transactions and real-time data analytics in-memory computing platform from the SAP.

    40. HAMA

    Hama is basically a distributed computing framework for big data analytics based on Bulk Synchronous Parallel strategies for advanced and complex computations like graphs, network algorithms, and matrices. It is a Top-level Project of The Apache Software Foundation.

    Big Data Analytics is the field with a number of career opportunities. Let’s check out why is Big Data Analytics so important!

    41. Hadoop Distributed File System (HDFS)

    Hadoop Distributed File System (HDFS) is primary data storage layer used by Hadoop applications. It employs DataNode and NameNode architecture to implement distributed and Java-based file system which supplies high-performance access to data with high scalable Hadoop Clusters. It is designed to be highly fault-tolerant.

    42. HBase

    Apache HBase is the Hadoop database which is an open source, scalable, versioned, distributed and big data store. Some features of HBase are

    • Modular and linear scalability
    • Easy to use Java APIs
    • Configurable and automatic sharing of tables
    • Extensible JIRB shell

    43. Hive

    Hive is an open source Hadoop-based data warehouse software project for providing data summarization, analysis, and query. Users can write queries in the SQL-like language known as HiveQL. Hadoop is a framework which handles large datasets in the distributed computing environment.

    I

    44. Impala

    Impala is an open source MPP (massively parallel processing) SQL query engine which is used in computer cluster for running Apache Hadoop. Impala provides parallel database strategy to Hadoop so that user will be able to apply low-latency SQL queries on the data that is stored in Apache HBase and HDFS without any data transformation.

    K

    45. Key Value Stores / Key Value Databases

    Key value store or key-value database is a paradigm of data storage which is schemed for storing, managing, and retrieving a data structure. Records are stored in a data type of a programming language with a key attribute which identifies the record uniquely. That’s why there is no requirement of a fixed data model.

    L

    46. Load balancing

    Load balancing is a tool which distributes the amount of workload between two or more computers over a computer network so that work gets completed in small time as all users desire to be served faster. It is the main reason for computer server clustering and it can be applied with software or hardware or with the combination of both.

    47. Linked Data

    Linked data refers to the collection of interconnected datasets that can be shared or published on the web and collaborated with machines and users. It is highly structured, unlike big data. It is used in building Semantic Web in which a large amount of data is available in the standard format on the web.

    48. Location Analytics

    Location analytics is the process of gaining insights from geographic component or location of business data. It is the visual effect of analyzing and interpreting the information which is portrayed by data and allows the user to connect location-related information with the dataset.

    49. Log File

    A log file is the special type of file that allows users keeping the record of events occurred or the operating system or conversation between the users or any running software.

    METRO

    50. Metadata

    Metadata is data about data. It is administrative, descriptive, and structural data that identifies the assets.

    51. MongoDB

    MongoDB is an open source and NoSQL document-oriented database program. It uses JSON documents to save data structures with an agile scheme known a MongoDB BSON format. It integrates data in applications very quickly and easily.

    52. Multi-Dimensional Database (MDB)

    A multidimensional database (MDB) is a kind of database which is optimized for OLAP (Online Analytical Processing) applications and data warehousing. MDB can be easily created by using the input of relational database. MDB is the ability of processing data in the database so that results can be developed quickly.

    53. Multi-Value Database

    Multi-Value Database is a kind of multi-dimensional and NoSQL database which is able to understand three-dimensional data. These databases are enough for manipulating XML and HTML strings directly.

    Some examples of Commercial Multi-value Databases are OpenQM, Rocket D3 Database Management System, jBASE, Intersystem Cache, OpenInsight, and InfinityDB.

    54. Machine-Generated Data

    Machine generated data is the information generated by machines (computer, application, process or another inhuman mechanism). Machine generated data is known as amorphous data as humans can rarely modify/change this data.

    55. Machine Learning

    Machine learning is a computer science field that makes use of statistical strategies to provide the facility to “learn” with data on the computer. Machine learning is used for exploiting the opportunities hidden in big data.

    56. MapReduce

    MapReduce is a processing technique to process large datasets with the parallel distributed algorithm on the cluster. MapReduce jobs are of two types. “Map” function is used to divide the query into multiple parts and then process the data at the node level. “Reduce’ function collects the result of “Map” function and then find the answer to the query. MapReduce is used to handle big data when coupled with HDFS. This coupling of HDFS and MapReduce is referred to as Hadoop.

    57. Mahout

    Apache Mahout is an open source data mining library. It uses data mining algorithms for regression testing, performing, clustering, statistical modeling, and then implementing them using MapReduce model.

    Norte

    58. Network Analysis

    Network analysis is the application of graph/chart theory that is used to categorize, understand, and viewing relationships between the nodes in network terms. It is an effective way of analyzing connections and to check their capabilities in any field such as prediction, marketing analysis, and healthcare etc.

    59. NewSQL

    NewSQL is a class of modern relational database management system which provide the scalable performance same as NoSQL systems for OLTP read/write workloads. It is well-defined database system which is easy to learn.

    Want to extend your knowledge of Big Data? Here is the complete list of Big Data Blogs, just read and become a Big Data expert!

    60. NoSQL

    Widely known as ‘Not only SQL’, it is a system for the management of databases. This database management system is independent of the relational database management system. A NoSQL database is not built on tables, and it doesn’t use SQL for the manipulation of data.

    O

    61. Object Databases

    The database that stores data in the form of objects is known as the object database. These objects are used in the same manner as that of the objects used in OOP. An object database is different from the graph and relational databases. These databases provide a query language most of the time that helps to find the object with a declaration.

    62. Object-based Image Analysis

    It is the analysis of object-based images that is performed with data taken by selected related pixels, known as image objects or simply objects. It is different from the digital analysis that is done using data from individual pixels.

    63. Online Analytical Processing (OLAP)

    It is the process by which analysis of multidimensional data is done by using three operators – drill-down, consolidation, and slice and dice.

    • Drill-down is the capability provided to users to view underlying details
    • Consolidation is the aggregate of available
    • Slice and dice is the capability provided to users for selecting subsets and viewing them from various contexts

    64. Online transactional processing (OLTP)

    It is the big data term used for the process that provides users an access to the large set of transactional data. It is done in such a manner that users are able to derive meaning from the accessed data.

    65. Open Data Center Alliance (ODCA)

    OCDA is the combination of IT organizations over the globe. The main goal of this consortium is to increase the movement of cloud computing.

    66. Operational Data Store (ODS)

    It is defined as a location to collect and store data retrieved from various sources. It allows users to perform many additional operations on the data before it is sent for reporting to the data warehouse.

    67. Oozie

    It is the big data term used for a processing system that allows users to define a set of jobs. These jobs are written in different languages such as Pig, MapReduce, and Hive. Oozie allows users to link those jobs to one another.

    PAG

    68. Parallel Data Analysis

    The process of breaking an analytical problem into small partitions and then running analysis algorithms on each of the partitions simultaneously is known as parallel data analysis. This type of data analysis can be run either on the different systems or on the same system.

    69. Parallel Method Invocation (PMI)

    It is the system that allows program code to call or invoke multiple methods/functions simultaneously at the same time.

    70. Parallel Processing

    It is the capability of a system to perform the execution of multiple tasks simultaneously.

    71. Parallel Query

    A parallel query can be defined as a query that can be executed over multiple system threads in order to improve the performance.

    72. Pattern Recognition

    A process to classify or label the identified pattern in the process of machine learning is known as pattern recognition.

    73. Pentaho

    Pentaho, a software organization, provides open source Business Intelligence products those are known as Pentaho Business Analytics. Pentaho offers OLAP services, data integration, dashboarding, reporting, ETL, and data mining capabilities.

    74. Petabyte

    The data measurement unit equals to 1,024 terabytes or 1 million gigabytes is known as petabyte.

    Q

    75. Query

    A query is a method to get some sort of information in order to derive an answer to the question.

    Big Data world is steadily evolving with the time. Let’s have a look at the upcoming Big Data Trends in 2018.

    76. Query Analysis

    The process to perform the analysis of search query is called query analysis. The query analysis is done to optimize the query to get the best possible results.

    R

    77. R

    It is a programming language and an environment for the graphics and statistical computing. It is very extensible language that provides a number of graphical and statistical techniques such as nonlinear and linear modeling, time-series analysis, classical statistical tests, clustering, classification etc.

    78. Re-identification

    The data re-identification is a process that matches anonymous data with the available auxiliary data or information. This practice is helpful to find out the individual whom this data belongs to.

    79. Real-time Data

    The data that can be created, stored, processed, analyzed, and visualized instantly i.e. in milliseconds, is known as real-time data.

    80. Reference Data

    It is the big data term that defines the data used to describe an object along with its properties. The object described by reference data may be virtual or physical in nature.

    81. Recommendation Engine

    It is an algorithm that performs the analysis of various actions and purchases made by a customer on an e-commerce website. This analyzed data is then used to recommend some complementary products to the customer.

    82. Risk Analysis

    It is a process or procedure to track the risks of an action, project or decision. The risk analysis is done by applying different statistical techniques on the datasets.

    83. Routing Analysis

    It is a process or procedure to find the optimized routing. It is done with the use of various variables for transport to improve efficiency and reduce costs of the fuel.

    S

    84. SaaS

    It is the big data term used for Software-as-a-Service. It allows vendors to host an application and then make this application available over the internet. The SaaS services are provided in the cloud by SaaS providers.

    85. Semi-Structured Data

    The data, not represented in the traditional manner with the application of regular methods is known as semi-structured data. This data is neither totally structured nor unstructured but contains some tags, data tables, and structural elements. Few examples of semi-structured data are XML documents, emails, tables, and graphs.

    86. Server

    The server is a virtual or physical computer that receives requests related to the software application and thus sends these requests over a network. It is the common big data term used almost in all the big data technologies.

    87. Spatial Analysis

    The analysis of spatial data i.e. topological and geographic data is known as spatial analysis. This analysis helps to identify and understand everything about a particular area or position.

    88. Structured Query Language (SQL)

    SQL is a standard programming language that is used to retrieve and manage data in a relational database. This language is very useful to create and query relational databases.

    89. Sqoop

    It is a connectivity tool that is used to move data from non-Hadoop data stores to Hadoop data stores. This tool instructs Sqoop to retrieve data from Teradata, Oracle or any other relational database and to specify target destination in Hadoop to move that retrieved data.

    90. Storm

    Apache Storm is a distributed, open source, and real-time computation system used for data processing. It is one of the must-known big data terms, responsible to process unstructured data reliably in real-time.

    A big data certification validates your Big Data skills and helps you stand out of the crowd. Here is the list of best Big Data Certifications in 2018.

    T

    91. Text Analytics

    The text analytics is basically the process of the application of linguistic, machine learning, and statistical techniques on the text-based sources. The text analytics is used to derive an insight or meaning from the text data by application of these techniques.

    92. Thrift

    It is a software framework that is used for the development of the ascendable cross-language services. It integrates code generation engine with the software stack to develop services that can work seamlessly and efficiently between different programming languages such as Ruby, Java, PHP, C++, Python, C# and others.

    U

    93. Unstructured Data

    The data for which structure can’t be defined is known as unstructured data. It becomes difficult to process and manage unstructured data. The common examples of unstructured data are the text entered in email messages and data sources with texts, images, and videos.

    V

    94. Value

    This big data term basically defines the value of the available data. The collected and stored data may be valuable for the societies, customers, and organizations. It is one of the important big data terms as big data is meant for big businesses and the businesses will get some value i.e. benefits from the big data.

    95. Volume

    This big data term is related to the total available amount of the data. The data may range from megabytes to brontobytes.

    W

    96. WebHDFS Apache Hadoop

    WebHDFS is a protocol to access HDFS to make the use of industry RESTful mechanism. It contains native libraries and thus allows to have an access of the HDFS. It helps users to connect to the HDFS from outside by taking advantage of Hadoop cluster parallelism. It also offers the access of web services strategically to all Hadoop components.

    97. Weather Data

    The data trends and patterns that help to track the atmosphere is known as the weather data. This data basically consists of numbers and factors. Now, real-time data is available that can be used by the organizations in a different manner. Such as a logistics company uses weather data in order to optimize goods transportation.

    X

    98. XML Databases

    The databases that support the storage of data in XML format is known as XML database. These databases are generally connected with the document-specific databases. One can export, serial, and put a query on the data of XML database.

    Y

    99. Yottabyte

    It is the big data term related to the measurement of data. One yottabyte is equal to 1000 zettabytes or the data stored in 250 trillion DVDs.

    Z

    100. ZooKeeper

    It is an Apache software project and Hadoop subproject which provides open code name generation for the distributed systems. It also supports consolidated organization of the large-sized distributed systems.

    101. Zettabyte

    It is the big data term related to the measurement of data. One zettabyte is equal to 1 billion terabytes or 1000 exabytes.

    Línea de fondo

    Big data is not only a buzz word but the broad term that has a lot to learn. So, we have enlisted and described these Big Data terms that will be helpful in your big data career. Not to mention, it is important to validate your big data skills and knowledge for the bright career. And big data certifications are meant to demonstrate your big data skills to the employers.

    Whizlabs, the pioneer in Big Data Certifications Training , is aimed to help you learn and get certified in big data technologies. Whether you are a Hadoop or Spark professional, Whizlabs Hadoop Admin (HDPCA), Spark Developer (HDPCD), and CCA Administrator certification online training will prepare you for a bright future!

    Have any questions regarding these Big Data terms? Just write here or put a comment below, we’ll be happy to answer!


    How to load geographic data into Hadoop (Hive) and then to be able to call spatial functions on them? - Sistemas de Información Geográfica

    Количество зарегистрированных учащихся: 17 тыс.

    Участвовать бесплатно

    Spatial (map) is considered as a core infrastructure of modern IT world, which is substantiated by business transactions of major IT companies such as Apple, Google, Microsoft, Amazon, Intel, and Uber, and even motor companies such as Audi, BMW, and Mercedes. Consequently, they are bound to hire more and more spatial data scientists. Based on such business trend, this course is designed to present a firm understanding of spatial data science to the learners, who would have a basic knowledge of data science and data analysis, and eventually to make their expertise differentiated from other nominal data scientists and data analysts. Additionally, this course could make learners realize the value of spatial big data and the power of open source software's to deal with spatial data science problems. This course will start with defining spatial data science and answering why spatial is special from three different perspectives - business, technology, and data in the first week. In the second week, four disciplines related to spatial data science - GIS, DBMS, Data Analytics, and Big Data Systems, and the related open source software's - QGIS, PostgreSQL, PostGIS, R, and Hadoop tools are introduced together. During the third, fourth, and fifth weeks, you will learn the four disciplines one by one from the principle to applications. In the final week, five real world problems and the corresponding solutions are presented with step-by-step procedures in environment of open source software's.

    Получаемые навыки

    Spatial Analysis, Qgis, Big Data, Geographic Information System (GIS)

    Рецензии

    Great course which starts with basics, gets descriptive with examples, real life scenarios, usage of software. Definitely recommended.

    Love the course! Explained very detail about spatial. Hope I can land my dream job soon that is related to spatial analysis.

    Spatial DBMS and Big Data Systems

    The fourth module is entitled to "Spatial DBMS and Big Data Systems", which covers two disciplines related to spatial data science, and will make learners understand how to use DBMS and Big Data Systems to manage spatial data and spatial big data. This module is composed of six lectures. The first two lectures will cover DBMS and Spatial DBMS, and the rest of the lectures will cover Big Data Systems. The first lecture "Database Management System (DBMS)" will introduce powerful functionalities of DBMS and related features, and limitations of conventional Relational DBMS for spatial data. The second lecture "Spatial DBMS" focuses on the difference of spatial DBMS from conventional DBMS, and new features to manage spatial data. The third lecture will give learners a brief overview of Big Data Systems and the current paradigm - MapReduce. The fourth lecture will cover Hadoop MapReduce, Hadoop Distributed File System (HDFS), Hadoop YARN, as an implementation of MapReduce paradigm, and also will present the first example of spatial big data processing using Hadoop MapReduce. The fifth lecture will introduce Hadoop ecosystem and show how to utilize Hadoop tools such as Hive, Pig, Sqoop, and HBase for spatial big data processing. The last lecture "Spatial Big Data System" will introduce two Hadoop tools for spatial big data - Spatial Hadoop and GIS Tools for Hadoop, and review their pros and cons for spatial big data management and processing.

    Преподаватели

    Joon Heo

    Текст видео

    In the previous lecture, you studied Hadoop that was designed for big data processing, and you also learned that it has some limitations as well as big advantages, so it may need some improvement to overcome the lack of functionalities, particularly regarding user's convenience. Can you use Hadoop in a more convenient manner? We'll discuss the answers to the question in this lecture. Hadoop Ecosystem refers to the various components of Apache Hadoop software library, as well as to the Hadoop related tools to address particular needs to overcome limitations of Hadoop itself. The figure presents the notable tools in Hadoop Ecosystem such as Hive, Pig, Sqoop, and HBase, that you will learn in more detail. Those Hadoop tools in the ecosystem can be categorized based on its design objective. Among them, a column-based NoSQL solution, HBase, a scripting solution for workflow, Pig, a SQL-like solution for workflow, Hive, and a convergent tool between RDBMS and HDFS Sqoop will be introduced with examples of spatial big data processing and management. Hive is originally developed for data warehouse software to facilitate querying and managing large dataset in distributed storage. Main advantage of Hive is to provide SQL-like language, HiveQL, which uses basic SQL such as Select, From, Where, Join, Group By, and so on. It is a Hadoop-based solution, so MapReduce and HDFS is being used behind the scene. Also, Hive allows users to plug in traditional mappers and reducers, when it is inefficient to use HiveQL. Let's process the same example in the previous lecture - Filter and visualize taxi drop-offs near LaGuardia Airport. Remember, it can be done in traditional MapReduce using Java. And I mentioned that it is too much hassle to conduct a SQL-like operation in MapReduce environment. Now, you are looking at an alternative solution using Hive. All you have to do is to import the data sets NewYork Taxi Trajectory, query and get the results and visualize the results. Much simpler than MapReduce. You're looking at the visualization of the results same as the outcome of MapReduce. Pig is platform for analyzing large datasets which is composed of a high-level scripting language and an engine for executing data flows in parallel on Hadoop. It provides language, Pig Latin, that includes most of traditional data operators such as Join, Sort, Filter and the ability for users to develop their own function for reading, processing and writing data. Pig runs on Hadoop, and obviously makes use of Hadoop MapReduce and HDFS. It basically makes it easy to write MapReduce program. Pig can be used in interactive mode – shell scripting, which is a line by line processing as you are looking at. The Pig-based solution for the same spatial big data processing was implemented. In which, data loading, filtering and exporting the results were conducted line by line. Pig solution can be also implemented in a batch mode as you are looking at the example. The line by line script in the previous slide can be saved in a script file, and Pig can call the script and a batch processing can be done. The same results as Hive and MapReduce were retrieved - taxi drop-offs near LaGuardia Airport. MapReduce is powerful but it requires hard coding Java, Python or C++. Even though it is much simpler than MPI, still complex to master. As mentioned it, MapReduce needs some improvement for user's convenience and the outcome for the needs, are the two solutions of Hive and Pig, with which users could manage and analyze big data using Hadoop and HDFS in more convenient manner. Sqoop is a tool, which is designed to transfer data between HDFS and relational databases. You can use Sqoop to import the data from a Relational Database Management System such as PostgreSQL, MySQL or Oracle into the HDFS to transform the data in Hadoop MapReduce and then to export the data back into an RDBMS. Now you're looking at conversion from HDFS of which filename is "green_tripdata_2014-01.csv" to a RDBMS table in MySQL of which name is "testnewyork". In the bottom, another conversion from my MySQL to Hive. Import "testnewyork" table in MySQL to "mysql_test" table in Hive. Certainly, with Sqoop, the opposite conversion from RDBMS table to HDFS and from Hive to RDBMS are also possible. As discussed, HDFS is designed for distributed storage and distributed computation and very good for batch processing. However, no facilities for accessing or updating individual data. HBase is an alternative solution, which is a column-based distributed database and capable of random access read and write. Additionally, it is good for sparse data and flexible to add new columns. HBase is another relational database and it does not provide a structured query language like SQL. In fact, HBase applications are written in Java just like a typical MapReduce application. HBase is originated from Google's Bigtable, and it is suited for handling very large tables for example billions of rows and millions of columns. A smart idea HBase is to apply column based partitioning to such a large table and to enable distributed operation of random access, updating, deleting individual item and eventually it achieves a better data management capability than HDFS. In the data model of HBase, each row is composed of rowkey and column families. The 'rowkey' should be unique and sorted, in order to preserve consistency and efficiency. Columns are grouped into column families. Physically, all column family members are sorted together on file system. So tuning in storage specifications are managed at the column family level, all column family members have the same general access pattern and size characteristics. Now you're looking at an HBase example. The sample dataset Seoul Taxi trajectory, a similar dataset to New York Taxi trajectory. Our design is following Rowkey is a combined string of carID and Time and two column families are made based on access pattern and data size which are 'properties' and ɼoordinates'. Based on the design, we created a database with the two column families using Java code. The next Java code is to load Seoul Taxi trajectory data into each HBase database. HBase provides only basic data model operations, Get, Put, Scan and Delete. Put is used to either to add new rows to a table if rowkey is new or to update existing rows if the rowkey already existed. Here, Put operation was used to load the data into HBase table. HBase also provides shell script. Using shell, a data retrieval is conducted from a HBase table which was just created. Using Get operation, the coordinate column family - Latitude and Longitude, X and Y are retrieved. Certainly, we could see Scan and Delete for other data management which is not feasible with HDFS. In this lecture, you just reviewed four tools in Hadoop Ecosystem. Hive, Pig, Sqoop and HBase which facilitate Hadoop in a more convenient manner. There are many many other tools. Now our question is - Is there any Hadoop tool for spatial big data? We will discuss the issue in the next lecture.


    A Deep Dive into NoSQL Databases: The Use Cases and Applications

    4.3.1 Apache Spark

    Apache Spark is a next-generation batch processing framework with stream processing capabilities. Spark focuses primarily on speeding up batch processing workloads by offering full in-memory computation and processing optimization. Spark can be deployed as a standalone cluster by pairing with a capable storage layer or can hook into Hadoop's HDFS. Spark, in the beginning, loads the data into memory, processes all the data in memory, and at the end, persists the final results in the disk storage. All intermediate results are fully kept and managed in memory.

    We all know that in-memory computing accelerates data processing drastically. That is, when data get stored in system memory rather on disk storages, the processing happens at 3000 times speedier. Spark is relatively fast on disk-related tasks because Spark brings forth a series of optimizations by analyzing the complete set of tasks ahead of time. It achieves this by creating DAGs, which represent all of the operations that must be performed, the data to be operated on, as well as the relationships between them, giving the processor a greater ability to intelligently coordinate work.

    Resilient distributed datasets (RDDs)—To implement an in-memory batch computation, Spark uses this proven RDD model to work with data. These are immutable structures that exist within memory that represent collections of data. Operations on RDDs can produce new RDDs and each RDD can trace its lineage back through its parent RDDs and ultimately to the data on disk. Through the concept of RDDs, Spark is able to maintain the much-needed fault tolerance without needing to write back to disk after each operation. Precisely speaking, Spark started its golden innings by performing batch processing.

    Spark Streaming is a newly introduced API in the Apache Spark family in order to simplify and speed upstream processing. Spark implements an original concept of microbatches to facilitate stream processing. The idea is to treat streams of data as a series of very small batches that can be handled using the native semantics of the batch engine. Spark Streaming works by buffering the stream in subsecond increments and they are sent as small fixed datasets for batch processing. This method can lead to different performance guarantees. Spark through its in-memory computing capability is able to do justice for both batch as well as streaming analytics. Adapting the batch methodology for stream processing can lead to buffering the data as it enters the system. The buffer helps to handle a high volume of incoming data and increasing the overall throughput. The problem here is that the waiting period to flush the buffer leads to high latency and hence for real-time processing, Spark is not a good fit. Ultimately Spark will replace the Hadoop's MapReduce module.

    The Spark deployment and operational model are quite unique and versatile. That is, Spark can be deployed as a standalone cluster or integrated with an existing Hadoop cluster. That is, a single cluster can do both batch and stream processing. Because of its innate strength, Spark is on the right track by adding additional libraries such as machine learning (ML), etc. GraphX is the Apache Spark's API for graphs and graph-parallel computation. GraphX is capable of unifying ETL, exploratory analysis, and iterative graph computation within a single system. We can view the same data as both graphs and collections, transform and join graphs with RDDs efficiently, and write custom iterative graph algorithms using the Pregel API.

    The principal advantages of Spark—There are many benefits being accrued out of the advancements happening in the Spark domain.

    Faster processing—Apache Spark essentially takes MapReduce to the next level with a performance that is significantly faster. Spark has the ability to hold intermediate results in memory itself instead of writing it back to disk and reading it again.

    Speed—Spark can execute batch processing jobs 10–100 times faster than MapReduce. That does not mean it lags behind when data have to be written to and fetched from disk.

    Ease of use—Apache Spark has easy-to-use APIs for easily operating on large datasets.

    Unified engine—Spark can run on top of Hadoop making use of its cluster manager (YARN) and underlying storage (HDFS, HBase, etc.). Also, it can run independently of Hadoop by joining hands with other cluster managers and storage platforms such as Cassandra and Amazon S3.

    Choose from Java, Scala, or Python—Spark supports all the prominent and dominant programming languages.

    In-memory data sharing—Different jobs can share data within the memory and this makes an ideal choice for iterative, interactive, and event stream processing tasks.

    As the relatively expensive memory is being used for computation, Spark is to cost more. However, the increased processing speed means that tasks can be completed faster and resultingly the cost of computation is on the lower side. Precisely speaking, Spark emerges as the one-stop solution for big data analytics.


    This section provides detailed descriptions of new features for the Adapter for Teradata.

    Support for Wide ODBC API

    A new interface for Teradata is introduced that is based on the wide ODBC API. This interface supports Unicode and offers better performance on some platforms (for example, Windows and Linux x64/x86) compared to the Teradata ODBC interface that is not utilizing the wide API. This wide ODBC API interface is supported with TTU v.15.0 or higher.

    READONLY Fields in Extended Bulk Load

    Loading into Teradata using Extended Bulk Load is now supported even when the server metadata contains READONLY fields. Such fields will be skipped and remained unchanged during loading.

    Distinguishing Between Macros and Stored Procedures

    The following Access File attribute has been introduced to identify whether the synonym represents a Teradata Macro or Stored Procedure.

    Support for Version 15.10

    The Teradata CLI and ODBC adapters support Read/Write access to Teradata Version 15.10.


    Ver el vídeo: Mastering Hive Tutorial. Hive Architecture. Interview Question