Building Batch Data Analytics Solutions on AWS
- Code training GK7378
- Duur 1 dag
Andere trainingsmethoden
Methode
Deze training is in de volgende formats beschikbaar:
-
Klassikale training
Klassikaal leren
-
Op locatie klant
Op locatie klant
-
Virtueel leren
Virtueel leren
Vraag deze training aan in een andere lesvorm.
Trainingsbeschrijving
Naar bovenData
Naar boven-
- Methode: Klassikale training
- Datum: 05 april, 2027 | 09:30 to 17:30
- Locatie: Amsterdam ARISTO Center (W. Europe )
- Taal: Nederlands
-
- Methode: Klassikale training
- Datum: 13 december, 2027 | 09:30 to 17:30
- Locatie: Eindhoven (Evoluon Noord Brabantlaan 1) (W. Europe )
- Taal: Nederlands
Doelgroep
Naar bovenDeze cursus is bedoeld voor:
- Ingenieurs van dataplatforms
- Architecten en operators die pijplijnen voor gegevensanalyse bouwen en beheren
Trainingsdoelstellingen
Naar bovenIn deze cursus leer je:
- Vergelijk de functies en voordelen van datawarehouses, data lakes en moderne data-architecturen
- Ontwerp en implementeer een oplossing voor batchgegevensanalyse
- Identificeer en pas de juiste technieken, waaronder compressie, toe om de gegevensopslag te optimaliseren
- Selecteer en implementeer de juiste opties om gegevens op te nemen, te transformeren en op te slaan
- Kies de juiste instantie- en knooppunttypen, clusters, automatisch schalen en netwerktopologie voor een bepaald zakelijk gebruiksscenario
- Begrijp hoe gegevensopslag en -verwerking van invloed zijn op de analyse- en visualisatiemechanismen die nodig zijn om bruikbare zakelijke inzichten te verkrijgen
- Gegevens beveiligen in rust en tijdens overdracht
- Bewaak analyseworkloads om problemen te identificeren en op te lossen
- Best practices voor kostenbeheer toepassen
Inhoud training
Naar bovenModule A: Overzicht van data-analyse en de datapijplijn
- Gebruiksscenario's voor gegevensanalyse
- De gegevenspijplijn gebruiken voor analyses
Module 1: Inleiding tot Amazon EMR
- Amazon EMR gebruiken in analyseoplossingen
- Architectuur van Amazon EMR-clusters
- Interactieve demo 1: Lancering van een Amazon EMR-cluster
- Strategieën voor kostenbeheersing
Module 2: Pijplijn voor gegevensanalyse met behulp van Amazon EMR: opname en opslag
- Opslagoptimalisatie met Amazon EMR
- Technieken voor gegevensopname
Module 3: Krachtige analyse van batchgegevens met behulp van Apache Spark op Amazon EMR
- Apache Spark op Amazon EMR-gebruiksscenario's
- Waarom Apache Spark op Amazon EMR
- Spark concepten
- Interactieve demo 2: Maak verbinding met een EMR-cluster en voer Scala-opdrachten uit met behulp van de
- De shell van de vonk
- Transformatie, verwerking en analyse
- Notebooks gebruiken met Amazon EMR
- Praktijklab 1: Gegevensanalyse met lage latentie met behulp van Apache Spark op Amazon EMR
Module 4: Batchgegevens verwerken en analyseren met Amazon EMR en Apache Hive
- Amazon EMR gebruiken met Hive om batchgegevens te verwerken
- Transformatie, verwerking en analyse
- Praktijklab 2: Batchgegevensverwerking met behulp van Amazon EMR met Hive
- Inleiding tot Apache HBase op Amazon EMR
Module 5: Serverloze gegevensverwerking
- Serverloze gegevensverwerking, -transformatie en -analyse
- AWS Glue gebruiken met Amazon EMR-workloads
- Practice Lab 3: Gegevensverwerking in Spark orkestreren met behulp van AWS Step Functions
Module 6: Beveiliging en monitoring van Amazon EMR-clusters
- EPD-clusters beveiligen
- Interactieve Demo 3: Client-side encryptie met EMRFS
- Amazon EMR-clusters bewaken en problemen oplossen
- Demo: De geschiedenis van Apache Spark-clusters bekijken
Module 7: Oplossingen voor batchgegevensanalyse ontwerpen
- Gebruiksscenario's voor batchgegevensanalyse
- Activiteit: Een workflow voor batchgegevensanalyse ontwerpen
Module B: Moderne data-architecturen ontwikkelen op AWS
- Moderne data-architecturen