Building Batch Data Analytics Solutions on AWS

Code training GK7378
Duur 1 dag

Andere trainingsmethoden

Klassikale training Prijs

eur795.00

(excl. BTW)

Vraag een groepstraining aan Schrijf je in

Ga naar:

Methode

Deze training is in de volgende formats beschikbaar:

Klassikale training

Klassikaal leren
Op locatie klant

Op locatie klant
Virtueel leren

Virtueel leren

Vraag deze training aan in een andere lesvorm.

Download de volledige beschrijving van de training

Trainingsbeschrijving

Naar boven

In deze cursus leert u oplossingen voor batchgegevensanalyse te bouwen met behulp van Amazon EMR, een beheerde Apache Spark- en Apache Hadoop-service op bedrijfsniveau. Je leert hoe Amazon EMR integreert met open-sourceprojecten zoals Apache Hive, Hue en HBase, en met AWS-services zoals AWS Glue en AWS Lake Formation. De cursus behandelt het verzamelen, opnemen, catalogiseren, opslaan en verwerken van componenten voor gegevensverwerking in de context van Spark en Hadoop. U leert EMR Notebooks te gebruiken om zowel analyse- als machine learning-workloads te ondersteunen. Je leert ook om best practices op het gebied van beveiliging, prestaties en kostenbeheer toe te passen op de werking van Amazon EMR.

Data

Naar boven

- Methode: Klassikale training
- Datum: 05 april, 2027 | 09:30 to 17:30
- Locatie: Amsterdam ARISTO Center (W. Europe )
- Taal: Nederlands
eur795.00

- Methode: Klassikale training
- Datum: 13 december, 2027 | 09:30 to 17:30
- Locatie: Eindhoven (Evoluon Noord Brabantlaan 1) (W. Europe )
- Taal: Nederlands
eur795.00

Doelgroep

Naar boven

Deze cursus is bedoeld voor:

Ingenieurs van dataplatforms
Architecten en operators die pijplijnen voor gegevensanalyse bouwen en beheren

Trainingsdoelstellingen

Naar boven

In deze cursus leer je:

Vergelijk de functies en voordelen van datawarehouses, data lakes en moderne data-architecturen
Ontwerp en implementeer een oplossing voor batchgegevensanalyse
Identificeer en pas de juiste technieken, waaronder compressie, toe om de gegevensopslag te optimaliseren
Selecteer en implementeer de juiste opties om gegevens op te nemen, te transformeren en op te slaan
Kies de juiste instantie- en knooppunttypen, clusters, automatisch schalen en netwerktopologie voor een bepaald zakelijk gebruiksscenario
Begrijp hoe gegevensopslag en -verwerking van invloed zijn op de analyse- en visualisatiemechanismen die nodig zijn om bruikbare zakelijke inzichten te verkrijgen
Gegevens beveiligen in rust en tijdens overdracht
Bewaak analyseworkloads om problemen te identificeren en op te lossen
Best practices voor kostenbeheer toepassen

Inhoud training

Naar boven

Module A: Overzicht van data-analyse en de datapijplijn

Gebruiksscenario's voor gegevensanalyse
De gegevenspijplijn gebruiken voor analyses

Module 1: Inleiding tot Amazon EMR

Amazon EMR gebruiken in analyseoplossingen
Architectuur van Amazon EMR-clusters
Interactieve demo 1: Lancering van een Amazon EMR-cluster
Strategieën voor kostenbeheersing

Module 2: Pijplijn voor gegevensanalyse met behulp van Amazon EMR: opname en opslag

Opslagoptimalisatie met Amazon EMR
Technieken voor gegevensopname

Module 3: Krachtige analyse van batchgegevens met behulp van Apache Spark op Amazon EMR

Apache Spark op Amazon EMR-gebruiksscenario's
Waarom Apache Spark op Amazon EMR
Spark concepten
Interactieve demo 2: Maak verbinding met een EMR-cluster en voer Scala-opdrachten uit met behulp van de
De shell van de vonk
Transformatie, verwerking en analyse
Notebooks gebruiken met Amazon EMR
Praktijklab 1: Gegevensanalyse met lage latentie met behulp van Apache Spark op Amazon EMR

Module 4: Batchgegevens verwerken en analyseren met Amazon EMR en Apache Hive

Amazon EMR gebruiken met Hive om batchgegevens te verwerken
Transformatie, verwerking en analyse
Praktijklab 2: Batchgegevensverwerking met behulp van Amazon EMR met Hive
Inleiding tot Apache HBase op Amazon EMR

Module 5: Serverloze gegevensverwerking

Serverloze gegevensverwerking, -transformatie en -analyse
AWS Glue gebruiken met Amazon EMR-workloads
Practice Lab 3: Gegevensverwerking in Spark orkestreren met behulp van AWS Step Functions

Module 6: Beveiliging en monitoring van Amazon EMR-clusters

EPD-clusters beveiligen
Interactieve Demo 3: Client-side encryptie met EMRFS
Amazon EMR-clusters bewaken en problemen oplossen
Demo: De geschiedenis van Apache Spark-clusters bekijken

Module 7: Oplossingen voor batchgegevensanalyse ontwerpen

Gebruiksscenario's voor batchgegevensanalyse
Activiteit: Een workflow voor batchgegevensanalyse ontwerpen

Module B: Moderne data-architecturen ontwikkelen op AWS

Moderne data-architecturen

Voorkennis

Naar boven

Studenten met minimaal een jaar ervaring met het beheren van open-source dataframeworks zoals Apache Spark of Apache Hadoop zullen baat hebben bij deze cursus.

Onderwerpen

Vendoren

Certificeringen-per-vendor

Klassikale training

Klassikaal leren

Op locatie klant

Op locatie klant

Virtueel leren

Virtueel leren

Onderwerpen

Vendoren

Certificeringen-per-vendor

Building Batch Data Analytics Solutions on AWS

Andere trainingsmethoden

Klassikale training Prijs

Ga naar:

Methode

Klassikale training Klassikaal leren

Op locatie klant Op locatie klant

Virtueel leren Virtueel leren

Trainingsbeschrijving

Data

Doelgroep

Trainingsdoelstellingen

Inhoud training

Voorkennis

Klassikale training

Klassikaal leren

Op locatie klant

Op locatie klant

Virtueel leren

Virtueel leren