Skip to main Content

Building Batch Data Analytics Solutions on AWS

  • Référence GK7378
  • Durée 1 Jour

Modalité pédagogique

Classe inter en présentiel Prix

EUR820.00

hors TVA

Demander une formation en intra-entreprise S'inscrire

Modalité pédagogique

La formation est disponible dans les formats suivants:

  • Classe inter à distance

    Depuis n'importe quelle salle équipée d'une connexion internet, rejoignez la classe de formation délivrée en inter-entreprises.

  • Classe inter en présentiel

    Formation délivrée en inter-entreprises. Cette méthode d'apprentissage permet l'interactivité entre le formateur et les participants en classe.

  • Intra-entreprise

    Cette formation est délivrable en groupe privé, et adaptable selon les besoins de l’entreprise. Nous consulter.

Demander cette formation dans un format différent

Dans ce cours, vous apprendrez à créer des solutions d’analyse de données par lots à l’aide d’Amazon EMR, un service géré Apache Spark et Apache Hadoop de niveau entreprise. Vous découvrirez comment Amazon EMR s’intègre à des projets open source tels qu’Apache Hive, Hue et HBase, ainsi qu’à des services AWS tels qu’AWS Glue et AWS Lake Formation. Le cours aborde la collecte, l’ingestion, le catalogage, le stockage et le traitement des composants de données dans le contexte de Spark et Hadoop. Vous apprendrez à utiliser EMR Notebooks pour prendre en charge les charges de travail d’analyse et d’apprentissage automatique. Vous apprendrez également à appliquer les bonnes pratiques en matière de sécurité, de performances et de gestion des coûts à l’exploitation d’Amazon EMR.

Prochaines dates

Haut de page
    • Modalité: Classe inter en présentiel
    • Date: 17 juillet, 2026 | 9:30 AM to 5:30 PM
    • Centre: Centre Virtuel FR (W. Europe )
    • Langue: Français

    EUR820.00

    • Modalité: Classe inter en présentiel
    • Date: 08 février, 2027 | 9:30 AM to 5:30 PM
    • Centre: RUEIL ATHENEE (W. Europe )
    • Langue: Français

    EUR820.00

    • Modalité: Classe inter en présentiel
    • Date: 07 juin, 2027 | 9:30 AM to 5:30 PM
    • Centre: RUEIL ATHENEE (W. Europe )
    • Langue: Français

    EUR820.00

    • Modalité: Classe inter en présentiel
    • Date: 18 octobre, 2027 | 9:30 AM to 5:30 PM
    • Centre: RUEIL ATHENEE (W. Europe )
    • Langue: Français

    EUR820.00

Ce cours s’adresse à :

  • Ingénieurs de plateformes de données
  • Architectes et opérateurs qui créent et gèrent des pipelines d’analyse de données

Objectifs de la formation

Haut de page

Dans ce cours, vous apprendrez à :

  • Comparez les fonctionnalités et les avantages des entrepôts de données, des lacs de données et des architectures de données modernes
  • Concevoir et mettre en œuvre une solution d’analyse de données par lots
  • Identifier et appliquer les techniques appropriées, y compris la compression, pour optimiser le stockage des données
  • Sélectionner et déployer les options appropriées pour ingérer, transformer et stocker des données
  • Choisissez les types d’instance et de nœud, les clusters, la mise à l’échelle automatique et la topologie de réseau appropriés pour un cas d’utilisation métier particulier
  • Comprendre comment le stockage et le traitement des données affectent les mécanismes d’analyse et de visualisation nécessaires pour obtenir des informations commerciales exploitables
  • Sécurisez les données au repos et en transit
  • Surveillez les charges de travail d’analyse pour identifier et résoudre les problèmes
  • Appliquer les meilleures pratiques de gestion des coûts

Programme détaillé

Haut de page

Module A : Présentation de l’analyse des données et du pipeline de données

  • Cas d’utilisation de l’analyse de données
  • Utilisation du pipeline de données pour l’analyse

Module 1 : Présentation d’Amazon EMR

  • Utilisation d’Amazon EMR dans les solutions d’analyse
  • Architecture du cluster Amazon EMR
  • Démo interactive 1 : Lancement d’un cluster Amazon EMR
  • Stratégies de gestion des coûts

Module 2 : Pipeline d’analyse de données à l’aide d’Amazon EMR : ingestion et stockage

  • Optimisation du stockage avec Amazon EMR
  • Techniques d’ingestion de données

Module 3 : Analyse de données par lots hautes performances à l’aide d’Apache Spark sur Amazon EMR

  • Cas d’utilisation d’Apache Spark sur Amazon EMR
  • Pourquoi choisir Apache Spark sur Amazon EMR
  • Concepts d’étincelle
  • Démo interactive 2 : Connectez-vous à un cluster EMR et exécutez des commandes Scala à l’aide de la commande
  • Coque d’étincelle
  • Transformation, traitement et analytique
  • Utilisation de blocs-notes avec Amazon EMR
  • Exercice pratique 1 : Analyse de données à faible latence à l’aide d’Apache Spark sur Amazon EMR

Module 4 : Traitement et analyse des données de lot avec Amazon EMR et Apache Hive

  • Utilisation d’Amazon EMR avec Hive pour traiter les données de lot
  • Transformation, traitement et analytique
  • Exercice pratique 2 : Traitement de données par lots à l’aide d’Amazon EMR avec Hive
  • Présentation d’Apache HBase sur Amazon EMR

Module 5 : Traitement des données sans serveur

  • Traitement, transformation et analyse des données sans serveur
  • Utilisation d’AWS Glue avec les charges de travail Amazon EMR
  • Exercice pratique 3 : Orchestrer le traitement des données dans Spark à l’aide d’AWS Step Functions

Module 6 : Sécurité et surveillance des clusters Amazon EMR

  • Sécurisation des clusters EMR
  • Démo interactive 3 : Chiffrement côté client avec EMRFS
  • Surveillance et dépannage des clusters Amazon EMR
  • Démo : Examen de l’historique du cluster Apache Spark

Module 7 : Conception de solutions d’analyse de données par lots

  • Cas d’utilisation de l’analyse de données par lots
  • Activité : Conception d’un flux de travail d’analyse de données par lots

Module B : Développement d’architectures de données modernes sur AWS

  • Architectures de données modernes

Pré-requis

Haut de page
Les étudiants ayant au moins un an d’expérience dans la gestion de frameworks de données open source tels qu’Apache Spark ou Apache Hadoop bénéficieront de ce cours. Pré-requis recommandés :