Especialista en Big Data con Apache Hadoop (A distancia)

Universidad Tecnológica Nacional - Centro de eLearning UTN BA
Big Data es el término que se utiliza para describir los grandes volúmenes de datos que componen Internet y la posibilidad de obtener información sobre ellos.
La información en Internet está formada por datos estructurados, y por desestructurados, que en cantidad superan tres veces a los primeros y que provienen mayormente de las herramientas de redes sociales.
Actualmente en menos de un minuto: se generan cerca de 100.000 tweets, se descargan 25.000 aplicaciones, 300.000 personas se loguean a Facebook y se ven 1,5 millones de videos en YouTube.
Se estima que en 2014 cada día fueron creados cerca de 3 trillones de bytes de datos y se espera que para el año 2020 haya 35 zettabytes de información.
La disciplina dedicada a los datos masivos y que se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos es Big Data. Las dificultades más habituales vinculadas a la gestión de estas cantidades de datos se centran en la captura, el almacenamiento, búsqueda, distribución (compartir), análisis y visualización de los datos.
Objetivo general
Formar a los asistentes en Big Data, para lo que se requiere que los participantes:
- Entiendan las ventajas y desventajas de las técnicas de Big Data
- Sepan distinguir los problemas que son susceptibles de emplear las técnicas de Big Data
- Comprendan los contextos en los cuales Big Data no tiene sentido desde el punto de vista de almacenamiento y explotación de la información
- Conozcan las herramientas disponibles identificando sus fortalezas y debilidades
- Sepan utilizar las funciones más difundidas de Apache Hadoop
- Puedan diseñar un flujo de trabajo con MapReduce, el modelo de programación utilizado por Google para dar soporte a la computación paralela
Objetivos específicos
- Que los participantes conozcan las razones que llevan al desarrollo de las técnicas de Big Data y puedan distinguir con claridad Big Data.
- Que los participantes comprendan las diferentes herramientas que conforman el ecosistema de Apache Hadoop y el lugar que ocupan en el mismo.
- Que los participantes desarrollen un criterio propio para saber cuándo aplicar herramientas de Big Data y cuando no.
- Que los participantes tengan como referencia aplicaciones útiles ya establecidas de las herramientas de Big Data para guiar su accionar.
- Que los participantes puedan elegir apropiadamente la distribución de Apache Hadoop que mejor se adapta a su problemática.
- Que los participantes puedan configurar adecuadamente los recursos de Apache Hadoop que van a utilizar.
- Que los participantes conozcan el impacto de los principales parámetros de configuración en el comportamiento futuro de las herramientas Apache Hadoop
- Que los participantes utilicen las herramientas de HDFS para manipulación de archivos.
- Que los participantes entiendan la arquitectura de HDFS y desde esa comprensión valoren el impacto de los comandos de manipulación de archivos.
- Que los participantes descubran como paralelizar los problemas para sacar ventaja cabal del procesamiento distribuido.
- Que los participantes manejen la escritura de código para la fase map y para la fase reduce.
- Que los participantes Entiendan las diferencias entre Hive y Pig
- Que los participantes Conozcan proyectos relacionados de Apache con Hadoop
- Que los participantes Conozcan las futuras tendencias sobre Hadoop
Destinatarios
Profesionales que quieran aplicar herramientas y técnicas de Big Data a problemas de negocios ya sea en forma general o dentro de las herramientas propuestas por Apache Hadoop
Unidad 1: ¿Qué es Apache Hadoop?
- Big Data y la necesidad de Apache Hadoop
- La explosión de los volúmenes de datos
- La variación de las estructuras de datos
- El Origen y Diseño de Apache Hadoop
- El procesamiento distribuido con MapReduce
- El ecosistema de Apache Hadoop
Unidad 2: ¿Cuando usar Apache Hadoop?
- Big data vs small data: ¿Cuando usar cada aproximación?
- Casos de uso comunes para Big Data en Apache Hadoop (log clickstram, Detección de Fraude, Análisis de sentimientos, Clasificación de imágenes, etc)
Unidad 3: ¿Como configuramos un entorno Apache Hadoop?
- La elección de una distribución de Apache Hadoop
- La elección de una arquitectura de cluster Apache Hadoop (Modo Pseudo-distribuida vs Modalidad completamente distribuida (un clúster de nodos))
- Instructivo para la configuración
Unidad 4: HDFS y MAP REDUCE
- Almacenamiento de datos en un File System Tradicional vs Almacenamiento de datos en HDFS
- Arquitectura HDFS
- Gestión de archivos con los comandos del HDFS
- Pensando en paralelo
- Fase Map
- Fase Reduce
- Ejemplo ilustrativo
- Escribiendo un Map Reduce
Unidad 5: Otros Lenguajes para Hadoop y Pasos Siguientes
- Hive
- Pig
- Relación entre ambos lenguajes
- Escribiendo un Map Reduce en Hive
- Escribiendo un Map Reduce en Pig
- Ejemplos comparativos entre MAP REDUCE, PIG y HIVE
- Otros Lenguajes
- Examen Final