Garantir que les systèmes et services sont hautement disponibles, performants et évolutifs.
Travailler à maintenir des accords de niveau de service (SLA/SLO/SLI).
Gestion des incidents :
Répondre aux incidents critiques, diagnostiquer rapidement les problèmes et les résoudre.
Mettre en œuvre des solutions pour prévenir la récurrence de ces incidents (root cause analysis).
Automatisation :
Automatiser les tâches répétitives et les processus opérationnels
Développer des outils pour améliorer l’efficacité et la fiabilité (scripts, systèmes de monitoring, etc.).
Conception et amélioration des systèmes :
Collaborer avec les équipes de développement pour concevoir des systèmes résilients dès la phase de conception.
Identifier et remédier aux goulots d’étranglement, points de défaillance ou inefficacités.
Monitoring et observabilité :
Mettre en place des outils et des tableaux de bord de surveillance pour suivre la santé des systèmes.
Fournir des métriques pertinentes pour évaluer la performance et détecter les problèmes.
Culture DevOps :
Promouvoir une culture de collaboration entre les équipes d’ingénierie et d’exploitation.
Adopter et encourager des pratiques CI/CD et Infrastructure as Code.
Expérience de plus de 5 ans dans la construction et mise en production d’applications cloud natives
Connaissances techniques avancées :
Maîtrise des systèmes d’exploitation (Linux/Unix principalement).
Solides compétences en programmation (Python, Go, C++, Java).
Expérience avec des outils d’automatisation (Puppet, Ansible, Terraform).
Gestion des systèmes distribués :
Bonne compréhension des architectures cloud-native (Kubernetes, Docker).
Expérience avec des bases de données et systèmes distribués (Bigtable, Cassandra, etc.).
Monitoring et logs : Familiarité avec des outils comme Prometheus, Grafana, ELK Stack (Elasticsearch, Logstash, Kibana).
Ces entreprises recrutent aussi au poste de “Service client”.
Voir toutes les offres