Informations générales
Entité de rattachement
Créé en 1987 autour de la chaîne M6, le Groupe M6 est un groupe plurimédia puissant qui rassemble chaque mois 52 millions de Français autour de ses programmes fédérateurs et éducatifs. De l'information au divertissement, il est un acteur majeur dans la production et la diffusion de contenus vidéos et audios à travers ses chaines de télévision (13 chaînes dont M6, chaine de TV préférée des Français), sa plateforme AVOD M6+ (20 millions de visiteurs par mois), ses stations de radio (3 stations dont RTL, 1ère radio privée française), ses activités dans le cinéma avec SND et la création de podcasts. Plus d'informations :
https://groupem6.fr
Référence
2026-2231
Description du poste
Métier
TECHNOLOGIES & INNOVATION - Innovation-Data
Intitulé du poste
Data Engineer F/H H/F
Description de la mission
Le Groupe M6 est l'un des groupes audiovisuels les plus importants de France, avec un portefeuille de chaînes comprenant M6, W9, 6ter, Gulli, Paris Première, Téva, ainsi que des stations de radio (RTL, RTL2, Fun Radio) et des services numériques. Le Groupe M6 est à la pointe de l'innovation numérique et de la transformation des médias, avec un engagement fort dans l'exploitation des données pour améliorer l'expérience utilisateur et optimiser ses revenus publicitaires.
Au sein de la direction des technologies et de l'innovation du Groupe M6, l'équipe Datalake joue un rôle important dans la centralisation, le traitement et la valorisation des données issues de l'ensemble des plateformes et services numériques du groupe. Dans un contexte de forte évolution du secteur audiovisuel et de compétition accrue avec les services de streaming internationaux, M6 mise sur les technologies de data science et d'intelligence artificielle pour innover et se différencier.
En tant que Data Engineer au sein de l'équipe datalake du Groupe M6, vous serez chargé(e) de :
- Concevoir et opérer des pipelines de données robustes sur AWS (S3, Glue, Athena, MWAA, EMR, ECS).
- Analyser des données volumineuses issues de l'adserver, du CRM, des audiences et de la radio pour produire des insights actionnables.
- Maîtriser Python (Pandas, PySpark, AWS Wrangler) pour développer des traitements optimisés et industrialisables.
- Produire et optimiser du SQL avancé pour les analyses et pipelines (CTE, window, performance tuning, partitionnement).
- Optimiser les traitements Spark pour gérer les téraoctets du datalake.
- Construire des KPI métier pour la régie publicitaire, le CRM, la radio et les équipes audiences.
- Mettre en place des modèles de données solides (datalake raw → golden), avec Parquet, Iceberg ou Delta Lake.
- Garantir performance, qualité et gouvernance des données sur l'ensemble du cycle de vie (monitoring, coûts, sécurité IAM).
Collaboration et innovation
- Collaborer avec les data scientists pour élaborer des produits et services prédictifs robustes
- Effectuer une veille scientifique et technologique pour irriguer les innovations au sein du groupe
- Accompagner les équipes métier (régie publicitaire, streaming, CRM, études TV) dans l'exploitation des insights data
Profil
Diplôme Bac+5 minimum en Data Engineering, Mathématiques appliquées, Statistiques ou domaine équivalent (École d'ingénieur ou Master spécialisé).
Expérience de 2 ans minimum en data engineering, une expérience dans le secteur des médias est un plus.
Compétences techniques :
- Expertise en Python et en data engineering
- Maîtrise avancée de Python appliqué au traitement de données (Pandas, PySpark, AWS Wrangler), structuration de projets, optimisation des performances et bonnes pratiques de développement.
- Très bon niveau en SQL pour interroger, transformer et optimiser des datasets volumineux (CTE, window functions, tuning, broadcast join).
- Expérience solide des environnements cloud – AWS
- Très bonne compréhension de l'écosystème AWS orienté data : S3, Glue, Athena, Lambda, MWAA, ECS, IAM, ainsi que la gestion du datalake en zones (raw → golden).
- Industrialisation et orchestration des pipelines
- Compétence confirmée dans la création et la gestion de pipelines avec MWAA, incluant la mise en production, la surveillance, l'optimisation et la fiabilité des workflows.
- Traitement de données à grande échelle
- Maîtrise de Spark (optimisation, partitionnement) pour les workloads distribués, et utilisation avancée de Pandas pour les traitements.
- Expérience avec les formats modernes et transactionnels : Parquet, Delta Lake, Iceberg
- La connaissance des données CRM/ ADserveur ainsi que Terraform est un plus.
Compétences personnelles :
- Excellente capacité de modélisation, d'analyse et de synthèse
- Curiosité intellectuelle et forte appétence pour l'innovation
- Sens pédagogique et capacité à vulgariser des concepts complexes
- Autonomie et esprit d'initiative
- Capacité à travailler en équipe multidisciplinaire
Contrat
CDI
Localisation du poste
Localisation du poste
France, Ile-de-France
Lieu
89, av Charles-de-Gaulle 92200 Neuilly-sur-Seine
Critères candidat
Niveau d'expérience min. requis
3 ans ou plus