Data

Certification Hadoop avec Spark pour Développeurs de Cloudera

Programme de la formation

Ce cours pratique de 4 jours fournira aux stagiaires les concepts clés et l’expertise nécessaire pour intégrer et enregistrer les données dans un cluster Hadoop avec les techniques et les outils plus récents. Les stagiaires utiliseront des projets tels que Spark, Hive, Flume, Sqoop et Impala afin de bénéficier de la meilleure préparation possible pour faire face aux défis quotidiens auxquels sont confrontés les développeurs Hadoop. Les participants apprendront à identifier et à utiliser les outils appropriés à chaque situation. Apprendre comment importer des données dans votre « cluster » Apache Hadoop et le transformer avec Spark, Hive, Flume, Sqoop, Impala, et d’autres outils de l’écosystème Hadoop.

JOUR 1

Introduction A propos du cours / Cloudera / Logistique du cours / Présentations / Apache Hadoop et son écosystème

Introduction à Hadoop Stockage et ingestion des données / Processing des données / Analyse des données et exploration / Autres outils de l’écosystème / Stockage de fichiers sur Hadoop

Composants principaux d’un cluster Architecture d’ HDFS / Utilisation d’ HDFS / Format de fichier sur Hadoop / Processing des données sur un cluster Hadoop

Architecture de YARN Travailler avec YARN / Importer les données d’une base de données relationnelle sur Hadoop

Présentation de SQOOP Importer des données avec SQOOP / Options d’import / Exporter des données / Apache Spark les bases

Qu’est ce que Apache Spark ? Utiliser le Shell de Spark / RDD / Programmation fonctionnelle au sein de Spark

JOUR 2

Travailler avec les RDD Créer des RDD / Opérations principales avec les RDD / Agrégation des données avec les pair RDD

Key-value Pair RDD Map Reduce / Autres opérations avec les Pair-RDD / Ecrire et exécuter des applications Spark

Spark Shell versus Spark Application Création du Spark Context / Construction d’un application Spark / Lancement d’une application Spark / Web UI relatives à Spark / Configuration des applications Spark

Propriétés de configuration de Spark Gestion des log / Exécution distribuée

Spark en exécution sur un cluster Partition des RDD / Partition des RDD basés sur des fichiers / “Data Locality” sur HDFS / Exécution des opérations en parallèle

JOUR 3

Persistance des RDD Cycle de vie d’un RDD / Persistance d’un RDD / Persistance distribuée / Traitements communs pour le processing de données avec Sparks

Cas d’utilisation de Spark Algorithmes itératifs / Machine learning / K-means / DataFrame et Apache Spark SQL

Apache Spark SQL et le SQL Context Création des Dataframes / Transformer et requêter un Dataframe / Persister un Dataframe / Dataframes et RDD / Comparaison entre Spark SQL, Impala et Hive On Spark / Traitement des messages avec Apache Kafka

Qu’est ce que Apache Kafka ? “Scaler” Apache Kafka / Architecture d’un cluster Kafka / Outils en ligne de commande d’Apache Kafka

JOUR 4

Récupération des événements avec Apache Flume Qu’est ce que Apache Flume ? / Architecture / Sources / Sinks / Canaux / Configuration / Intégration entre Apache Flume et Apache Kafka

Présentation Cas d’utilisation / Configuration / Apache Spark Streaming: Introduction DStream

Présentation de Apache Spark Streaming Exemple de cas d’utilisation temps réel / DStreams / Développement d’application temps réel / Apache Spark Streaming: Processing multi-batch

Opérations Multi batch Découpage par période / Maintien d’un état / Déplacement au travers d’une fenêtre de temps / Apache Spark Streaming: Sources de données

Sources de données pour le streaming Flume et Kafka comme source de données / Source de données Kafka

Méthodes pédagogiques

Les participants apprendront Apache Spark et comment l’intégrer dans l’écosystème Hadoop au travers d’échanges avec le formateur ainsi qu’en réalisant des exercices pratiques sur les sujets suivants :

  • Comment les données sont distribuées, stockées et enregistrées dans un cluster Hadoop ?
  • Comment utiliser Sqoop et Flume pour intégrer les données ?
  • Comment enregistrer des données distribuées avec Apache Spark ?
  • Comment modéliser des données structurées en tant que tableau dans Impala et Hive ?
  • Comment choisir le meilleur format de stockage de données pour différents patterns d’utilisation de données ?
  • Les meilleures pratiques pour le stockage de données.

Voici un exemple d’exercice pratique :

Vous êtes embauché par une société fictive LOUDACRE spécialisée dans fourniture de réseau mobile. Votre rôle va être d’accompagner cette société dans sa transformation vers l’adoption du big data. Tout son système d’information existant doit être migré vers un cluster Hadoop pour lui permettre de supporter sa forte croissance et son volume important de données à traiter.

Technologiques de l’écosystème Hadoop : Impala, HDFS, Hue, Yarn, Sqoop, Spark, Spark Streaming, Spark Dataframe, Apache Kafka, Apache Flume.

Durée

4 jours soit 28 heures

Tarif HT

inter : 2 995 €

intra : Selon demande

Prochaines dates

20 - July 23

13 - October 16

Inscription

Public visé

Cette formation est prévue pour des développeurs et des ingénieurs qui ont une expérience de programmation.

Prérequis

Les exemples Apache Spark et les exercices de « hands-on » sont présentés avec Scala et Python, donc il faut être à l’aise pour programmer dans l’un de ces langages. Avoir une connaissance de base avec les lignes de commande Linux est requis. Avoir une connaissance de base de SQL est utile. Aucune expérience préalable avec Hadoop n’est nécessaire. Les postes de travail et les logiciels nécessaires au bon déroulement de la formation sont fournis par Xebia.

Objectifs de la formation

Les stagiaires, à l’issue de la formation, sauront :

  • Identifier et utiliser les outils appropriés à chaque situation dans un écosystème Hadoop
  • Utiliser Apache Spark et l’intégrer dans l’écosystème Hadoop
  • Utiliser Hive, Impala, Flume et Sqoop

Certification

A la suite de la formation, les stagiaires auront la possibilité de passer l’examen Certification « CCA Spark and Hadoop Developer » de Cloudera. Cet examen se déroule en dehors du temps de la formation. Ils deviendront alors des experts certifiés Cloudera dans leur entreprise.

Validation

À la fin de cette formation, les stagiaires recevront une attestation de présence.

Formateurs

Bruno Bouchahoua

Bruno Bouchahoua

Bruno Bouchahoua est un ingénieur Systèmes & logiciels spécialisé dans les systèmes distribués.

Développement logiciel sur écosystème Hadoop avec Spark Administration de cluster. NoSQL avec HBase et Mongo Db. Conception & développement d'applications distribuées. Industrialisation des développements. DevOps autour des stack Data Sécurité des systèmes distribués Déploiement dans le Cloud et définition d'architectures Cloud Actuellement, il oeuvre au sein de missions d'expertise en tant que Data Architect sur des environnements à forte volumétrie dans différents secteurs d'activité.

Bruno anime plusieurs formations chez Xebia Training autour du domaine de la data. Il a également été speaker lors du Mois de la Data et participé à l'élaboration d'articles sur le blog technique de Xebia.