Comment DataDome utilise des post-mortems pour apprendre de chaque incident

Les incidents vont se produire dans n'importe quel logiciel. DataDome effectue des post-mortems à la suite d'incidents pour trouver la cause principale et résoudre le problème pour l'avenir.

Sarah Belghiti

Operations Manager, Site Reliability Engineering

Chez DataDome, l'ingénierie de fiabilité des sites (SRE) maintient notre solution en bon état de fonctionnement en utilisant plusieurs systèmes complexes et distribués. En tant que directeur des opérations de l'équipe SRE, j'ai une vue d'ensemble des différents changements et fonctionnalités qui, inévitablement, provoquent des incidents et des interruptions à mesure que nous nous développons et grandissons. Nous croyons en l'apprentissage à chaque incident grâce aux post-mortems.

Dans les 24 à 48 heures suivant un incident, toutes les équipes ont l'opportunité d'apprendre en s'appuyant sur l'expertise des équipes en contact avec les clients et des équipes techniques, en embrassant une diversité de pensées pour parvenir à une résolution. Dans cet article, nous explorerons les sujets suivants :

  • comment nous identifions ensemble la source du problème ;
  • la puissance de promouvoir une culture sans culpabilité ;
  • comment ces enseignements renforcent l'expertise technique au sein de DataDome.

La base de la résolution d'incidents : la transparence

Ma priorité, lorsqu'un incident se produit, est d'atténuer les impacts sur les clients en résolvant le problème. Le post-mortem est effectué après la résolution pour documenter l'incident et avoir une source unique d'information identifiant la cause première, les actions et les leçons apprises. Les rapports de post-mortem sont disponibles pour l'ensemble de l'entreprise afin d'aider à résoudre d'autres incidents similaires.

DataDome assure un support 7j/7, 24h/24 à tous les clients via des rotations d'astreinte. Si une alerte est reçue, les équipes dédiées sont notifiées, et des mesures sont immédiatement prises. Une fois que la cause première est identifiée et que plus d'informations sont découvertes, nos experts savent exactement avec qui collaborer en interne pour trouver une solution.

Un rapport de post-mortem commence par comprendre si l'incident a été causé par un nouveau déploiement ou par quelque chose de moins évident. Notre document modèle contient toutes les informations pertinentes, y compris les tickets et les logs, pour accomplir le processus de post-mortem. Une fois que l'incident est résolu, toutes les parties prenantes impliquées savent qu'il est essentiel de prendre du recul, de revoir exactement ce qui s'est passé, et de prendre des mesures ensemble pour :

  • améliorer la stabilité de l'infrastructure et du code logiciel ;
  • favoriser des relations de confiance avec tous les clients.

Boris Tréhin, responsable des solutions et de l'habilitation des services, explique que sans les post-mortems, le processus de support client et de livraison serait très difficile. Les post-mortems sont souvent examinés par les équipes en contact avec les clients, ouvrant la porte à des discussions proactives directement avec eux.

Lors de ces discussions, nous communiquons la portée exacte de l'incident, associée à des plans d'action tangibles à court et à long terme pour atténuer les divergences techniques. Les parties prenantes techniques comprennent que des incidents se produisent, et notre processus garantit que le même incident ne se reproduira pas. C'est un véritable témoignage de l'état d'esprit #TeamSpirit et #CustomerCentric que les BotBusters incarnent chaque jour, et qui favorise la nature collaborative de l'environnement de travail chez DataDome.

La collaboration proactive et réactive entre chaque équipe impliquée est essentielle. Grâce à cela, nous sommes en mesure de communiquer en toute confiance toutes les documentations aux clients. Cela nous permet de maintenir une relation solide, et de continuer à faire confiance au produit DataDome.

–Boris Tréhin, responsable des solutions et de l'habilitation des services

Promouvoir une culture sans culpabilité

Un post-mortem sans culpabilité est fondamental. Chaque système connaît des échecs, et le post-mortem offre l'opportunité d'apprendre de ces échecs ; la clé est d'apprendre de l'incident et de ne pas le reproduire. Notre processus se concentre sur l'identification des facteurs sous-jacents conduisant à l'événement, sans pointer du doigt une personne ou un groupe spécifique.

La culpabilité peut amener les gens à éviter de signaler des problèmes, de peur de représailles potentielles. En fin de compte, nous ne nous soucions pas de savoir qui était responsable de l'incident, car nous sommes une équipe - la responsabilité ne repose pas sur une seule personne.

Ceux qui ne font rien ne cassent rien. Nous sommes humains, nous commettrons des erreurs. Ça ne m'intéresse pas de savoir qui a fait l'erreur, je me concentre sur la compréhension de pourquoi cette erreur s'est produite et comment nous pouvons l'éviter à l'avenir.

–Jean-Louis Bergamo, responsable de l'infrastructure

Cet état d'esprit, qui s'étend de la direction jusqu'au bas de l'échelle, contribue naturellement à favoriser un environnement sûr, accueillant toutes les lacunes. Une culture sans culpabilité assure une analyse des causes profondes sans faille et encourage les BotBusters à s'exprimer si quelque chose a mal tourné.

« Avoir de l'expertise dans une technologie, c'est faire face à certains défis pour en apprendre davantage », ajoute Jean-Louis. « Ces conversations favorisent non seulement le transfert de connaissances entre les équipes en interne, mais elles contribuent également à approfondir les compétences techniques. »

Améliorer notre expertise technique

Comme pour tout post-mortem, nous stockons tous les incidents dans Notion, y compris des indicateurs clés tels que :

  • chronologies et impacts ;
  • observations et actions pendant un incident ;
  • ce qui a été bien fait ;
  • quels processus pourraient être améliorés ;
  • la stratégie technique pour l'avenir.

Avec la cause première identifiée, nous pouvons cibler les améliorations de notre pile technologique, en trouvant des domaines que nous pouvons réparer ou améliorer afin d'éviter ou d'atténuer les incidents futurs.

Utiliser un incident pour améliorer DataDome

Lors d'un incident, nous avons apporté une modification au groupe de sécurité AWS pour une région. Inopinément, nous avons arrêté de recevoir tout le trafic pour cette région. Bien que les clients aient été automatiquement redirigés vers la région la plus proche, nous devions quand même résoudre le problème. Une fois résolu rapidement, le post-mortem nous a permis de localiser des domaines d'amélioration dans nos processus techniques qui pourraient prévenir les incidents futurs.

Pour améliorer la solution et les processus de DataDome, nous avons :

  • Amélioré les méthodes de test des modifications de configuration dans un environnement de pré-production. Bien que les tests en pré-production soient courants pour les modifications de code, ils sont parfois négligés pour les modifications de configuration, même si les conséquences peuvent être tout aussi importantes.
  • Renforcé les systèmes de surveillance en place. Cela nous aide à identifier plus rapidement la cause première d'un incident.

Même lorsque les incidents affectent des parties de notre solution ou de notre infrastructure qui suivent déjà les meilleures pratiques de l'industrie, les post-mortems nous aident à découvrir ce qui ne fonctionne peut-être pas comme prévu, et à trouver des moyens d'empêcher que l'incident ne se reproduise.

Conclusion

Des incidents se produisent avec n'importe quel logiciel. Ce qui se passe après la résolution d'un incident est essentiel pour prévenir les problèmes futurs. Le processus de post-mortem de DataDome garantit que nous examinons la cause première et la solution, ainsi que les moyens d'améliorer nos procédures techniques à l'avenir.

Nous sommes également transparents avec nos clients, nourrissant la confiance en communiquant sur les incidents et leurs résolutions, car nous avons confiance en notre capacité à régler les problèmes et à en sortir plus forts. Notre culture sans culpabilité en ce qui concerne les post-mortems aide chaque employé à se sentir habilité à signaler des problèmes sans craindre de représailles.

Sans attribuer la responsabilité à une personne ou à un groupe spécifique, les post-mortems nous aident à trouver des opportunités de croissance en tant qu'entreprise et à améliorer notre solution de lutte contre les bots et la fraude - faisant de notre produit un produit basé sur des expériences réelles et des leçons apprises.

Si vous êtes intéressé par rejoindre DataDome dans sa mission de débarrasser le web du trafic frauduleux, nous vous encourageons à consulter nos postes ouverts. Vous pouvez aussi soumettre votre CV via une candidature spontanée !