DETALLES DEL CURSO SELECCIONADO

Nombre Curso Hadoop avanzado
Duración Curso en Horas 24 horas
Descripción Los alumnos programaran diferentes tareas de procesamiento distribuido analizando el paralelismo alcanzado en soluciones altamente distribuidas y entenderán conceptos avanzados de tareas MapReduce y similares
Contenidos
Esquema del curso Hadoop Introducción a Hadoop
Identificación de los beneficios comerciales de Hadoop
Examinando el ecosistema de Hadoop
Seleccionar una distribución adecuada
Paralelizar la ejecución del programa
Afrontando desafíos de la programación paralela Investigación de desafíos paralelos: algoritmos, intercambio de datos e información
Estimación del almacenamiento y la complejidad de Big Data
Programación paralela con MapReduce Dividir y conquistar problemas a gran escala
Descubriendo trabajos adecuados para MapReduce
Resolver problemas comerciales típicos
Implementación de trabajos de MapReduce del mundo real
Aplicación del paradigma MapReduce de Hadoop Configurar el entorno de desarrollo
Explorando la distribución de Hadoop
Crear los componentes de los trabajos de MapReduce
Presentación de los demonios de Hadoop
Analizar las etapas del procesamiento de MapReduce: dividir, mapear, barajar y reducir
Creación de trabajos complejos de MapReduce Seleccionar y emplear múltiples mapeadores y reductores
Aprovechamiento de mapeadores, reductores y particionadores integrados
Analizar datos de series de tiempo con clasificación secundaria
Streaming de tareas a través de varios lenguajes de programación
Personalizar MapReduce
Resolver problemas comunes de manipulación de dato Ejecución de algoritmos: ordenaciones paralelas, uniones y búsquedas
Analizar archivos de registro, datos de redes sociales y correos electrónicos
Implementación de particionadores y comparadores Identificación de algoritmos paralelos vinculados a la red, a la CPU y a las E / S del disco
Dividir la carga de trabajo de manera eficiente usando particionadores
Controlar la agrupación y el orden de clasificación con comparadores
Recopilación de métricas con contadores
Persistencia de Big Data con almacenes de datos distribuidos
Abogando por los datos distribuidos Lograr un rendimiento de datos de alto rendimiento
Recuperación de fallas en los medios a través de la redundancia
Interfaz sistema archivos distribuido Hadoop HDFS Desglose de la estructura y organización de HDFS
Cargando datos sin procesar y recuperando resultados
Leer y escribir datos mediante programación
Manipulación de tipos de archivos de secuencia de Hadoop
Compartir datos de referencia con DistributedCache
Estructuración de datos con HBase Migración de almacenamiento estructurado a no estructurado
Aplicar conceptos NoSQL con esquema en lectura
Conexión a HBase desde trabajos de MapReduce
Comparación de HBase con otros tipos de almacenes de datos NoSQL
Simplificación del análisis de datos con lenguajes de consulta
Liberando el poder de SQL con Hive Estructuración de bases de datos, tablas, vistas y particiones
Integración de trabajos de MapReduce con consultas de Hive
Consultando con HiveQL
Acceder a los servidores de Hive a través de JDBC
Ampliación de HiveQL con funciones definidas por el usuario (UDF)
Ejecutando flujos de trabajo con Pig Desarrollo de scripts de Pig Latin para consolidar flujos de trabajo
Integración de consultas de Pig con Java
Interactuar con los datos a través de la consola grunt
Ampliación de Pig con funciones definidas por el usuario (UDF)
Gestión e implementación de soluciones de Big Data
Prueba y depuración del código de Hadoop Registro de eventos importantes para auditoría y depuración
Depurar en modo local
Validación de requisitos con MRUnit
Implementación, supervisión, ajuste de rendimiento Implementar en un clúster de producción
Optimización del rendimiento con herramientas administrativas
Supervisión de la ejecución del trabajo a través de interfaces de usuario web
Lista de Tags Hadoop