Le data engineer, à l'instar de l'architecte big data, est un ingénieur spécialisé dans la conception de solutions de récupération et d’exploitation de gros volumes de données ou big data. Expert en identification de données, il est garant de la pertinence et de la qualité des données ainsi que du respect des bonnes pratiques et de la fluidité des processus. Responsable de l’infrastructure des données, il est chargé des processus de collecte, de stockage et de modélisation des données pour que celles-ci soient faciles d‘accès et prêtes à l’analyse par les data scientists et les data analysts. Il travaille en étroite relation avec l'architecte big data qui lui est plus orienté sur la conception de solutions.
Le data engeneer automatise l’acquisition de données provenant de différentes sources (création des pipelines d’acquisition), les collecte et les agrège dans une data warehouse (base de données relationnelle) sur serveur ou sur le cloud (test d’intégration, mise en place et maintenance des outils d’automatisation) et gère les bases de données de stockage.
Son rôle est ensuite de nettoyer, de consolider et de structurer ces données à l’aide d’outils et d’algorithmes (création de tableaux de bord, intégration de modèles statistiques).
Le data engineer doit posséder un large éventail de compétences techniques (langages de développement IA, requêtes, base de données, stockage, analyse de données, cloud computing, machine learning, deep learning, IA, DevOps..).
Pour l’industriatisation des modèles de machine learning, il doit avoir des connaissances en statistiques et mathématiques.
Face à l’explosion du big data et notamment des technologies comme l’Iot (Internet of Things) et l’IA, le data engineer est un profil très recherché. Les data engineer peuvent être recrutés directement par les entreprises ou travailler au sein de société de services.