Senior SRE Engineer

Senior SRE Engineer

To sum up

Type : Full time
City : Downtown Montreal North

Job description

Mission

L’Ingénieur(e) SRE Senior pilote la conception, l’évolution et la supervision des plateformes, avec un rôle central articulé autour de trois axes complémentaires :

  1. Observabilité & supervision

  2. Expertise Kubernetes (OKD)

  3. Compréhension et supervision des infrastructures réseau Juniper

Il/elle définit et déploie les standards de monitoring, d’alerting et de performance afin d’assurer une visibilité fiable, complète et exploitable sur des systèmes distribués à forte volumétrie.

Ce poste, à forte dimension technique et architecturale, joue un rôle clé dans la structuration de la culture observabilité, la montée en maturité des équipes et l’harmonisation des pratiques de supervision à l’échelle de l’organisation.


Responsabilités principales

Observabilité & Supervision (cœur du rôle)

  • Définir et faire évoluer la stratégie globale d’observabilité (métriques, logs, alerting, capacité).

  • Concevoir et maintenir des architectures de monitoring scalables.

  • Administrer et optimiser les plateformes Prometheus, Victoria Metrics et ClickHouse.

  • Construire des dashboards avancés orientés performance, comportement système et capacité.

  • Mettre en place des alertes pertinentes et alignées avec les objectifs de fiabilité.

  • Définir et suivre des indicateurs avancés (SLIs / SLOs).

  • Garantir la qualité, la cohérence et la durabilité des données de supervision.

  • Anticiper les enjeux de volumétrie et de scalabilité des métriques.

Kubernetes & Plateforme

  • Maintenir les composants de supervision sur Kubernetes (OKD).

  • Déployer et faire évoluer les stacks d’observabilité via Helm.

  • Adapter les mécanismes de monitoring aux architectures distribuées et microservices.

  • Collaborer avec les équipes pour assurer la résilience des outils de supervision.

  • Contribuer aux choix d’architecture liés à l’évolution de la plateforme Kubernetes.

Sécurité & Réseau

  • Concevoir et maintenir la gestion des secrets et des accès via OpenBao.

  • Garantir la sécurisation des flux de supervision (authentification, chiffrement, RBAC).

  • Travailler avec les équipes réseau sur la supervision des infrastructures Juniper.

  • Intégrer les contraintes réseau dans les architectures d’observabilité.

Leadership technique & transversalité

  • Être force de proposition sur les sujets d’observabilité et de supervision.

  • Accompagner et former les équipes aux bonnes pratiques.

  • Participer aux revues d’architecture avec un focus visibilité, performance et fiabilité.

  • Définir et diffuser des standards et guidelines internes.

  • Assurer une veille active sur les outils et pratiques d’observabilité.



Apply to this ad!

Do you have a question ?