Nombre Curso | Hadoop avanzado |
Duración Curso en Horas | 24 horas |
Descripción | Los alumnos programaran diferentes tareas de procesamiento distribuido analizando el paralelismo alcanzado en soluciones altamente distribuidas y entenderán conceptos avanzados de tareas MapReduce y similares |
Contenidos | |
Esquema del curso Hadoop | Introducción a Hadoop
Identificación de los beneficios comerciales de Hadoop Examinando el ecosistema de Hadoop Seleccionar una distribución adecuada Paralelizar la ejecución del programa |
Afrontando desafíos de la programación paralela | Investigación de desafíos paralelos: algoritmos, intercambio de datos e información
Estimación del almacenamiento y la complejidad de Big Data |
Programación paralela con MapReduce | Dividir y conquistar problemas a gran escala
Descubriendo trabajos adecuados para MapReduce Resolver problemas comerciales típicos Implementación de trabajos de MapReduce del mundo real |
Aplicación del paradigma MapReduce de Hadoop | Configurar el entorno de desarrollo
Explorando la distribución de Hadoop Crear los componentes de los trabajos de MapReduce Presentación de los demonios de Hadoop Analizar las etapas del procesamiento de MapReduce: dividir, mapear, barajar y reducir |
Creación de trabajos complejos de MapReduce | Seleccionar y emplear múltiples mapeadores y reductores
Aprovechamiento de mapeadores, reductores y particionadores integrados Analizar datos de series de tiempo con clasificación secundaria Streaming de tareas a través de varios lenguajes de programación Personalizar MapReduce |
Resolver problemas comunes de manipulación de dato | Ejecución de algoritmos: ordenaciones paralelas, uniones y búsquedas
Analizar archivos de registro, datos de redes sociales y correos electrónicos |
Implementación de particionadores y comparadores | Identificación de algoritmos paralelos vinculados a la red, a la CPU y a las E / S del disco
Dividir la carga de trabajo de manera eficiente usando particionadores Controlar la agrupación y el orden de clasificación con comparadores Recopilación de métricas con contadores Persistencia de Big Data con almacenes de datos distribuidos |
Abogando por los datos distribuidos | Lograr un rendimiento de datos de alto rendimiento
Recuperación de fallas en los medios a través de la redundancia |
Interfaz sistema archivos distribuido Hadoop HDFS | Desglose de la estructura y organización de HDFS
Cargando datos sin procesar y recuperando resultados Leer y escribir datos mediante programación Manipulación de tipos de archivos de secuencia de Hadoop Compartir datos de referencia con DistributedCache |
Estructuración de datos con HBase | Migración de almacenamiento estructurado a no estructurado
Aplicar conceptos NoSQL con esquema en lectura Conexión a HBase desde trabajos de MapReduce Comparación de HBase con otros tipos de almacenes de datos NoSQL Simplificación del análisis de datos con lenguajes de consulta |
Liberando el poder de SQL con Hive | Estructuración de bases de datos, tablas, vistas y particiones
Integración de trabajos de MapReduce con consultas de Hive Consultando con HiveQL Acceder a los servidores de Hive a través de JDBC Ampliación de HiveQL con funciones definidas por el usuario (UDF) |
Ejecutando flujos de trabajo con Pig | Desarrollo de scripts de Pig Latin para consolidar flujos de trabajo
Integración de consultas de Pig con Java Interactuar con los datos a través de la consola grunt Ampliación de Pig con funciones definidas por el usuario (UDF) Gestión e implementación de soluciones de Big Data |
Prueba y depuración del código de Hadoop | Registro de eventos importantes para auditoría y depuración
Depurar en modo local Validación de requisitos con MRUnit |
Implementación, supervisión, ajuste de rendimiento | Implementar en un clúster de producción
Optimización del rendimiento con herramientas administrativas Supervisión de la ejecución del trabajo a través de interfaces de usuario web |
Lista de Tags | Hadoop |