informations générales
Les responsabilités clés comprennent :
- La conception de l'infrastructure de données : Concevoir, implémenter et gérer une plateforme de données évolutive en utilisant des outils tels qu'Apache Kafka, Redpanda et des services de données cloud.
- Le développement de pipelines de données : Construire des pipelines robustes d'ingestion, de transformation et de traitement des données en utilisant des cadres ETL/ELT.
- Le Data Warehousing : Concevoir et gérer des data warehouse qui soutiennent les analyses et les rapports, en garantissant l'intégrité, la précision et l'accessibilité des données. Avec des modèles de bases de données multiples tels que PostgreSQL, neo4j ou memgraph, ChromaDB.
- La gouvernance des données : Mettre en œuvre les meilleures pratiques de gouvernance des données, de sécurité et de confidentialité sur la plateforme.
- La scalabilité et performance : Assurer que l'infrastructure de données peut évoluer pour répondre aux besoins croissants de l'organisation et optimiser la performance pour de grands ensembles de données.
- La collaboration : Travailler en étroite collaboration avec les data scientists, les analystes et les autres ingénieurs pour fournir des solutions de données répondant aux besoins de l'entreprise.
La surveillance et la maintenance : Surveiller les systèmes de données pour garantir une haute disponibilité et des performances optimales, résoudre les problèmes et garantir l'exactitude et la qualité des données.
- L'automatisation : Automatiser les flux de travail de données et la fourniture d'infrastructure en utilisant IaC et des outils tels que Kuberntes d'orchestration tels que Kubernetes