Data Engineer
€7,000.00€5,900.00
Durée : 250 heures
100% d'avis positifs
Langue: Français
Niveau de compétence : Expert
Demander plus d'informations
Description
- Introduction à l’Ingénierie des Données
- Durée : 10 heures
- Objectif : Comprendre les concepts fondamentaux de l’ingénierie des données, son rôle et son importance dans la gestion des données.
- Détails :
- Définition du rôle de data engineer.
- Aperçu des technologies et outils utilisés.
- Cycle de vie de la gestion des données.
- Programmation en Python et Scala pour l’Ingénierie des Données
- Durée : 30 heures
- Objectif : Maîtriser les bases de la programmation en Python et Scala pour les tâches de traitement des données.
- Détails :
- Syntaxe de base de Python et Scala.
- Utilisation de bibliothèques Python pour la manipulation des données (pandas, NumPy).
- Introduction à Scala et Spark pour le traitement distribué des données.
- SQL et Bases de Données Relationnelles
- Durée : 20 heures
- Objectif : Utiliser SQL pour interagir avec les bases de données relationnelles.
- Détails :
- Syntaxe SQL de base : SELECT, INSERT, UPDATE, DELETE.
- Conception et normalisation de bases de données.
- Optimisation des requêtes SQL pour de meilleures performances.
- NoSQL et Bases de Données Non-Relationnelles
- Durée : 20 heures
- Objectif : Comprendre et utiliser les bases de données NoSQL pour stocker et interroger des données non structurées.
- Détails :
- Introduction aux bases de données NoSQL (MongoDB, Cassandra).
- Comparaison entre bases de données relationnelles et non relationnelles.
- Modélisation des données et requêtes dans NoSQL.
- ETL (Extract, Transform, Load) et Pipeline de Données
- Durée : 30 heures
- Objectif : Construire et gérer des pipelines de données pour l’extraction, la transformation et le chargement des données.
- Détails :
- Concepts de base des processus ETL.
- Utilisation d’outils ETL comme Apache Nifi, Talend, ou Airflow.
- Meilleures pratiques pour le design et la gestion des pipelines de données.
- Big Data et Traitement Distribué
- Durée : 30 heures
- Objectif : Apprendre à travailler avec de grands ensembles de données à l’aide de technologies de traitement distribué.
- Détails :
- Concepts de base du Big Data.
- Introduction à Hadoop et écosystème (HDFS, MapReduce).
- Utilisation de Apache Spark pour le traitement de données à grande échelle.
- Cloud Computing pour l’Ingénierie des Données
- Durée : 30 heures
- Objectif : Utiliser les services cloud pour le stockage, le traitement et l’analyse des données.
- Détails :
- Introduction aux principaux fournisseurs de cloud (AWS, Azure, GCP).
- Services cloud spécifiques aux données : Amazon S3, Google BigQuery, Azure Data Lake.
- Déploiement et gestion des pipelines de données dans le cloud.
- Sécurité des Données et Conformité
- Durée : 20 heures
- Objectif : Assurer la sécurité et la conformité des données dans les systèmes de gestion des données.
- Détails :
- Principes de sécurité des données.
- Mise en œuvre des contrôles d’accès et de chiffrement.
- Conformité aux réglementations (GDPR, CCPA).
- Monitoring et Optimisation des Pipelines de Données
- Durée : 20 heures
- Objectif : Surveiller et optimiser les performances des pipelines de données.
- Détails :
- Techniques de monitoring et outils (Prometheus, Grafana).
- Analyse et optimisation des performances.
- Détection et résolution des goulets d’étranglement.
- Projets Pratiques et Études de Cas
- Durée : 40 heures
- Objectif : Appliquer les compétences acquises à des projets réels et des études de cas.
- Détails :
- Travail sur des jeux de données réels pour construire des pipelines de données complets.
- Présentation des résultats et des recommandations.
- Collaboration en équipe pour simuler un environnement de travail réel.
Prérequis
- Connaissances de base en programmation (idéalement Python). Notions fondamentales des bases de données relationnelles et SQL. Compréhension des concepts de data analysis ou data science (souhaitée mais non obligatoire). Connaissances de base en systèmes d'exploitation (Windows, Linux).
Public Cible
- Développeurs souhaitant se spécialiser en ingénierie des données. Analystes de données voulant automatiser et gérer des pipelines de données. Administrateurs de bases de données cherchant à évoluer vers le Big Data. Étudiants ou professionnels en reconversion vers les métiers du data engineering. Ingénieurs systèmes ou cloud intéressés par la gestion des flux de données.
Vous pourriez être intéressé par
-
200 Hours
€6,000.00€5,000.00