Building Batch Data Analytics Solutions on AWS
- Référence GK7378
- Durée 1 Jour
Modalité pédagogique
Aller à:
Modalité pédagogique
La formation est disponible dans les formats suivants:
-
Classe inter à distance
Depuis n'importe quelle salle équipée d'une connexion internet, rejoignez la classe de formation délivrée en inter-entreprises.
-
Classe inter en présentiel
Formation délivrée en inter-entreprises. Cette méthode d'apprentissage permet l'interactivité entre le formateur et les participants en classe.
-
Intra-entreprise
Cette formation est délivrable en groupe privé, et adaptable selon les besoins de l’entreprise. Nous consulter.
Demander cette formation dans un format différent
Résumé
Haut de pageFormation intra-entreprise
Cette formation est délivrable en session intra-entreprise, dans vos locaux ou dans les nôtres. Son contenu peut être adapté sur-mesure pour répondre aux besoins de vos collaborateurs. Contactez votre conseiller formation Global Knowledge ou adressez votre demande à info@globalknowledge.fr.
Prochaines dates
Haut de pagePublic
Haut de pageCe cours s’adresse à :
- Ingénieurs de plateformes de données
- Architectes et opérateurs qui créent et gèrent des pipelines d’analyse de données
Objectifs de la formation
Haut de pageDans ce cours, vous apprendrez à :
- Comparez les fonctionnalités et les avantages des entrepôts de données, des lacs de données et des architectures de données modernes
- Concevoir et mettre en œuvre une solution d’analyse de données par lots
- Identifier et appliquer les techniques appropriées, y compris la compression, pour optimiser le stockage des données
- Sélectionner et déployer les options appropriées pour ingérer, transformer et stocker des données
- Choisissez les types d’instance et de nœud, les clusters, la mise à l’échelle automatique et la topologie de réseau appropriés pour un cas d’utilisation métier particulier
- Comprendre comment le stockage et le traitement des données affectent les mécanismes d’analyse et de visualisation nécessaires pour obtenir des informations commerciales exploitables
- Sécurisez les données au repos et en transit
- Surveillez les charges de travail d’analyse pour identifier et résoudre les problèmes
- Appliquer les meilleures pratiques de gestion des coûts
Programme détaillé
Haut de pageModule A : Présentation de l’analyse des données et du pipeline de données
- Cas d’utilisation de l’analyse de données
- Utilisation du pipeline de données pour l’analyse
Module 1 : Présentation d’Amazon EMR
- Utilisation d’Amazon EMR dans les solutions d’analyse
- Architecture du cluster Amazon EMR
- Démo interactive 1 : Lancement d’un cluster Amazon EMR
- Stratégies de gestion des coûts
Module 2 : Pipeline d’analyse de données à l’aide d’Amazon EMR : ingestion et stockage
- Optimisation du stockage avec Amazon EMR
- Techniques d’ingestion de données
Module 3 : Analyse de données par lots hautes performances à l’aide d’Apache Spark sur Amazon EMR
- Cas d’utilisation d’Apache Spark sur Amazon EMR
- Pourquoi choisir Apache Spark sur Amazon EMR
- Concepts d’étincelle
- Démo interactive 2 : Connectez-vous à un cluster EMR et exécutez des commandes Scala à l’aide de la commande
- Coque d’étincelle
- Transformation, traitement et analytique
- Utilisation de blocs-notes avec Amazon EMR
- Exercice pratique 1 : Analyse de données à faible latence à l’aide d’Apache Spark sur Amazon EMR
Module 4 : Traitement et analyse des données de lot avec Amazon EMR et Apache Hive
- Utilisation d’Amazon EMR avec Hive pour traiter les données de lot
- Transformation, traitement et analytique
- Exercice pratique 2 : Traitement de données par lots à l’aide d’Amazon EMR avec Hive
- Présentation d’Apache HBase sur Amazon EMR
Module 5 : Traitement des données sans serveur
- Traitement, transformation et analyse des données sans serveur
- Utilisation d’AWS Glue avec les charges de travail Amazon EMR
- Exercice pratique 3 : Orchestrer le traitement des données dans Spark à l’aide d’AWS Step Functions
Module 6 : Sécurité et surveillance des clusters Amazon EMR
- Sécurisation des clusters EMR
- Démo interactive 3 : Chiffrement côté client avec EMRFS
- Surveillance et dépannage des clusters Amazon EMR
- Démo : Examen de l’historique du cluster Apache Spark
Module 7 : Conception de solutions d’analyse de données par lots
- Cas d’utilisation de l’analyse de données par lots
- Activité : Conception d’un flux de travail d’analyse de données par lots
Module B : Développement d’architectures de données modernes sur AWS
- Architectures de données modernes