Building Batch Data Analytics Solutions on AWS

Référence GK7378
Durée 1 Jour

Modalité pédagogique

Intra-entreprise Prix

Nous contacter

Demander une formation en intra-entreprise S'inscrire

Aller à:

Modalité pédagogique

La formation est disponible dans les formats suivants:

Classe inter à distance

Depuis n'importe quelle salle équipée d'une connexion internet, rejoignez la classe de formation délivrée en inter-entreprises.
Classe inter en présentiel

Formation délivrée en inter-entreprises. Cette méthode d'apprentissage permet l'interactivité entre le formateur et les participants en classe.
Intra-entreprise

Cette formation est délivrable en groupe privé, et adaptable selon les besoins de l’entreprise. Nous consulter.

Demander cette formation dans un format différent

Télécharger le programme complet

Résumé

Haut de page

Dans ce cours, vous apprendrez à créer des solutions d’analyse de données par lots à l’aide d’Amazon EMR, un service géré Apache Spark et Apache Hadoop de niveau entreprise. Vous découvrirez comment Amazon EMR s’intègre à des projets open source tels qu’Apache Hive, Hue et HBase, ainsi qu’à des services AWS tels qu’AWS Glue et AWS Lake Formation. Le cours aborde la collecte, l’ingestion, le catalogage, le stockage et le traitement des composants de données dans le contexte de Spark et Hadoop. Vous apprendrez à utiliser EMR Notebooks pour prendre en charge les charges de travail d’analyse et d’apprentissage automatique. Vous apprendrez également à appliquer les bonnes pratiques en matière de sécurité, de performances et de gestion des coûts à l’exploitation d’Amazon EMR.

Formation intra-entreprise

Cette formation est délivrable en session intra-entreprise, dans vos locaux ou dans les nôtres. Son contenu peut être adapté sur-mesure pour répondre aux besoins de vos collaborateurs. Contactez votre conseiller formation Global Knowledge ou adressez votre demande à info@globalknowledge.fr.

Prochaines dates

Haut de page

Public

Haut de page

Ce cours s’adresse à :

Ingénieurs de plateformes de données
Architectes et opérateurs qui créent et gèrent des pipelines d’analyse de données

Objectifs de la formation

Haut de page

Dans ce cours, vous apprendrez à :

Comparez les fonctionnalités et les avantages des entrepôts de données, des lacs de données et des architectures de données modernes
Concevoir et mettre en œuvre une solution d’analyse de données par lots
Identifier et appliquer les techniques appropriées, y compris la compression, pour optimiser le stockage des données
Sélectionner et déployer les options appropriées pour ingérer, transformer et stocker des données
Choisissez les types d’instance et de nœud, les clusters, la mise à l’échelle automatique et la topologie de réseau appropriés pour un cas d’utilisation métier particulier
Comprendre comment le stockage et le traitement des données affectent les mécanismes d’analyse et de visualisation nécessaires pour obtenir des informations commerciales exploitables
Sécurisez les données au repos et en transit
Surveillez les charges de travail d’analyse pour identifier et résoudre les problèmes
Appliquer les meilleures pratiques de gestion des coûts

Programme détaillé

Haut de page

Module A : Présentation de l’analyse des données et du pipeline de données

Cas d’utilisation de l’analyse de données
Utilisation du pipeline de données pour l’analyse

Module 1 : Présentation d’Amazon EMR

Utilisation d’Amazon EMR dans les solutions d’analyse
Architecture du cluster Amazon EMR
Démo interactive 1 : Lancement d’un cluster Amazon EMR
Stratégies de gestion des coûts

Module 2 : Pipeline d’analyse de données à l’aide d’Amazon EMR : ingestion et stockage

Optimisation du stockage avec Amazon EMR
Techniques d’ingestion de données

Module 3 : Analyse de données par lots hautes performances à l’aide d’Apache Spark sur Amazon EMR

Cas d’utilisation d’Apache Spark sur Amazon EMR
Pourquoi choisir Apache Spark sur Amazon EMR
Concepts d’étincelle
Démo interactive 2 : Connectez-vous à un cluster EMR et exécutez des commandes Scala à l’aide de la commande
Coque d’étincelle
Transformation, traitement et analytique
Utilisation de blocs-notes avec Amazon EMR
Exercice pratique 1 : Analyse de données à faible latence à l’aide d’Apache Spark sur Amazon EMR

Module 4 : Traitement et analyse des données de lot avec Amazon EMR et Apache Hive

Utilisation d’Amazon EMR avec Hive pour traiter les données de lot
Transformation, traitement et analytique
Exercice pratique 2 : Traitement de données par lots à l’aide d’Amazon EMR avec Hive
Présentation d’Apache HBase sur Amazon EMR

Module 5 : Traitement des données sans serveur

Traitement, transformation et analyse des données sans serveur
Utilisation d’AWS Glue avec les charges de travail Amazon EMR
Exercice pratique 3 : Orchestrer le traitement des données dans Spark à l’aide d’AWS Step Functions

Module 6 : Sécurité et surveillance des clusters Amazon EMR

Sécurisation des clusters EMR
Démo interactive 3 : Chiffrement côté client avec EMRFS
Surveillance et dépannage des clusters Amazon EMR
Démo : Examen de l’historique du cluster Apache Spark

Module 7 : Conception de solutions d’analyse de données par lots

Cas d’utilisation de l’analyse de données par lots
Activité : Conception d’un flux de travail d’analyse de données par lots

Module B : Développement d’architectures de données modernes sur AWS

Architectures de données modernes

Pré-requis

Haut de page

Les étudiants ayant au moins un an d’expérience dans la gestion de frameworks de données open source tels qu’Apache Spark ou Apache Hadoop bénéficieront de ce cours.

Produits associés

Haut de page

RS6222 - Créer et maintenir des solutions d’analyse de données efficaces et sécurisées sur le cloud AWS

DOMAINES

EDITEURS INFORMATIQUES

Certifications éditeurs IT et Management

Classe inter à distance

Depuis n'importe quelle salle équipée d'une connexion internet, rejoignez la classe de formation délivrée en inter-entreprises.

Classe inter en présentiel

Formation délivrée en inter-entreprises. Cette méthode d'apprentissage permet l'interactivité entre le formateur et les participants en classe.

Intra-entreprise

Cette formation est délivrable en groupe privé, et adaptable selon les besoins de l’entreprise. Nous consulter.

DOMAINES

EDITEURS INFORMATIQUES

Certifications éditeurs IT et Management

Building Batch Data Analytics Solutions on AWS

Modalité pédagogique

Intra-entreprise Prix

Aller à:

Modalité pédagogique

Classe inter à distance Depuis n'importe quelle salle équipée d'une connexion internet, rejoignez la classe de formation délivrée en inter-entreprises.

Classe inter en présentiel Formation délivrée en inter-entreprises. Cette méthode d'apprentissage permet l'interactivité entre le formateur et les participants en classe.

Intra-entreprise Cette formation est délivrable en groupe privé, et adaptable selon les besoins de l’entreprise. Nous consulter.

Résumé

Prochaines dates

Public

Objectifs de la formation

Programme détaillé

Pré-requis

Produits associés

Classe inter à distance

Depuis n'importe quelle salle équipée d'une connexion internet, rejoignez la classe de formation délivrée en inter-entreprises.

Classe inter en présentiel

Formation délivrée en inter-entreprises. Cette méthode d'apprentissage permet l'interactivité entre le formateur et les participants en classe.

Intra-entreprise

Cette formation est délivrable en groupe privé, et adaptable selon les besoins de l’entreprise. Nous consulter.