Rencontrez la Lead Data Scientist de DataDome : Q&R avec Konstantina Kontoudi, PhD

Konstantina Kontoudi, PhD, est le cerveau derrière l’apprentissage automatique de DataDome. Découvrez ses idées sur la cybersécurité et les principales tendances en science des données aujourd’hui.

Lorsque nous mettons de nouveaux modèles de machine learning en production, il ne suffit pas de connaître la théorie—vous devez écrire le code réel, le faire fonctionner et le rendre fiable.

Konstantina Kontoudi, PhD, Lead Data Scientist chez DataDome

De l’obtention de son doctorat en physique théorique à consacrer 60 % de sa journée de travail à coder, Konstantina nous raconte comment elle en est arrivée là et pourquoi son rôle de Lead Data Scientist lui convient parfaitement. Découvrez des informations exclusives de la personne à l’origine de la magie du machine learning de DataDome sur ce que c’est de percer dans le domaine de la cybersécurité, pourquoi les compétitions de machine learning sont un excellent outil d’apprentissage et quelles sont, selon elle, les principales tendances en data science aujourd’hui.

Q : À quoi ressemble votre journée de travail typique ?

R : Je commence généralement la journée en consultant Slack et les e-mails, et en me tenant au courant des nouvelles liées au ML. À 9h45, mon équipe a une réunion quotidienne de 5 minutes pour se synchroniser. Ensuite, la plupart de mon temps est consacré à coder et à implémenter, à faire des revues de code et à lire des sujets liés à mes projets.

Le codage et l’implémentation représentent généralement environ 60 % de ma journée, la lecture peut-être 20 %, mais l’équilibre dépend de l’état d’avancement du projet sur lequel je travaille. En moyenne, j’ai deux réunions par jour, principalement des réunions techniques avec les membres de mon équipe ou des réunions de synchronisation avec d’autres équipes ou la direction de DataDome.

Q : Comment êtes-vous entrée dans le domaine de la data science ?

R : Après avoir terminé mon doctorat en physique théorique, je voulais quitter le milieu universitaire et trouver un “vrai” travail. Quelqu’un m’a parlé de Coursera, où j’ai trouvé le cours de Machine Learning d’Andrew Ng qui est depuis devenu un incontournable pour tout aspirant data scientist—des millions de personnes l’ont maintenant suivi. Quoi qu’il en soit, j’ai suivi le cours, et j’ai pensé “c’est incroyable” ! Je connaissais déjà toutes les mathématiques nécessaires pour travailler avec le machine learning ; ce que je ne connaissais pas bien, c’était le codage. Mais j’ai trouvé des cours pour cela aussi. L’un d’eux exigeait que je participe à une compétition Kaggle, c’est ainsi que j’ai commencé à apprendre Python.

J’ai ensuite trouvé un emploi en tant que développeuse, ce qui m’a offert l’opportunité parfaite de passer du milieu universitaire au monde de l’entreprise. J’ai toujours eu en tête que je voulais faire de la data science, mais ces années d’expérience en tant que développeuse se sont avérées très précieuses. Lorsque nous mettons de nouveaux modèles de machine learning en production, il ne suffit pas de connaître la théorie—vous devez écrire le code réel, le faire fonctionner et le rendre fiable.

Q : Qu’est-ce qui vous a attiré dans la data science ?

R : J’aime la complexité et les mathématiques impliquées, et j’aime que les connaissances soient très transférables. Dans mon emploi précédent, nous utilisions le machine learning pour effectuer des tests de qualité dans une usine de production. Maintenant, je l’applique à la cybersécurité, mais les mêmes algorithmes peuvent également être utilisés pour des choses comme l’imagerie médicale, presque n’importe quoi en fait. Et je trouve ça incroyable.

Q : Comment avez-vous vu le domaine de la data science évoluer depuis que vous avez commencé ?

R : Lorsque j’ai commencé à suivre le domaine, il y a environ huit ans, tout le battage médiatique était autour de XGBoost et des algorithmes plus traditionnels. Aujourd’hui, il y a beaucoup plus d’accent sur le deep learning et les réseaux neuronaux.

Je pense aussi qu’à l’époque, la plupart des entreprises faisant de la data science ne faisaient que gratter la surface et expérimenter pour voir ce qui pouvait être fait. Cela a changé. De plus en plus d’entreprises utilisent désormais la data science en production, ce qui nécessite non seulement une compréhension théorique du machine learning, mais aussi la capacité d’écrire du code de qualité production.

Q : Quelles sont, selon vous, les principales tendances en data science en ce moment ?

R : Eh bien, c’est un vaste domaine, mais un domaine de recherche intéressant consiste à essayer de comprendre pourquoi les réseaux neuronaux fonctionnent et ce qui se passe exactement lorsqu’ils sont entraînés. Les gens essaient de créer des modèles du comportement des réseaux neuronaux, mais c’est encore une question de recherche ouverte. Je vois aussi beaucoup de battage médiatique autour du traitement du langage naturel (NLP).

En regardant le programme de la dernière conférence NeurIPS, il y avait aussi un énorme chapitre sur les biais et l’éthique, et comment y remédier. Les modèles apprennent à partir des données, donc si les données sont biaisées, le modèle sera biaisé—surtout avec les modèles de langage, qui sont souvent à la fois racistes et sexistes car ils capturent tous les biais existants dans les données disponibles.

En général, il y a beaucoup d’accent sur l’IA centrée sur les données, et c’est à juste titre. Si vos données ne sont pas bonnes, vous n’obtiendrez tout simplement pas de résultats fiables. Nous, les data scientists, aimons créer des modèles compliqués parce que c’est tellement amusant, mais la vérité est que très souvent, si vous avez de meilleures données, vous n’avez pas besoin de changer le modèle. Même des ensembles de données bien connus comme ImageNet se sont avérés contenir des images mal étiquetées, donc il existe de plus en plus d’outils disponibles pour vous aider à identifier ce type de problème, à recueillir des connaissances d’experts et à automatiser l’étiquetage de vos données.

C’est quelque chose sur lequel nous travaillons déjà chez DataDome. Sans entrer dans trop de détails, nous utilisons des fonctions d’étiquetage automatique des données pour produire des étiquettes probabilistes pour chaque empreinte. Cela nous aide, par exemple, à identifier les faux négatifs.

Q : Comment vous tenez-vous informée des tendances ? Quels sont vos ressources  préférées ?

R : Je suis abonnée à beaucoup de newsletters, probablement trop. L’une que j’aime particulièrement est The Batch du professeur Andrew Ng, que j’ai déjà mentionné. Elle résume des articles de recherche, mais couvre également des sujets intéressants qui apparaissent dans les actualités, avec une approche très courte et concise. Un autre outil très utile s’appelle Connected papers. Lorsque vous entrez un article académique, il crée un graphique d’autres publications avec un contenu similaire. Il vous permet de trouver rapidement les articles les plus pertinents pour le domaine sur lequel vous travaillez.

Pendant mon temps libre, je continue également de participer à des compétitions Kaggle de temps en temps, pour apprendre et acquérir de l’expérience dans de nouveaux domaines. La dernière que j’ai faite portait sur la segmentation d’images, ce qui n’est pas quelque chose que j’utilise dans mon travail quotidien. Il existe d’autres plateformes aussi, mais Kaggle est génial car les participants partagent beaucoup. Il y a des espaces de discussion et des espaces où vous pouvez partager vos notebooks, et les gens le font vraiment. Vous pouvez donc voir le travail des autres et comment ils expliquent leurs approches, ce qui est un excellent moyen d’apprendre.

Vous pouvez également accéder à l’historique des compétitions précédentes, et si vous avez de la chance, vous trouverez un problème similaire à celui que vous essayez actuellement de résoudre. Bien sûr, les compétitions consistent uniquement à obtenir le meilleur score, et les solutions gagnantes ne sont pas toujours pratiques dans la vie réelle, mais il y a souvent des inspirations utiles à trouver.

Fun fact : En 2021, Konstantina a remporté la 2e place d’une compétition appelée le Feel The Rhythm Challenge, où l’entreprise australienne Western Power demandait aux data scientists de développer un modèle pour aider à garantir la sécurité des personnes au travail. Félicitations Konstantina !

Q : Quelle est la meilleure partie de votre travail ?

R : J’aime vraiment recevoir des retours rapides sur mon travail. Lorsque nous déployons un nouveau modèle de machine learning dans le moteur de détection des bots de DataDome, nos boucles de rétroaction nous disent presque instantanément comment il fonctionne. Dans de nombreuses autres entreprises, vous devez attendre longtemps avant d’obtenir un retour d’information.
J’aime aussi que tous mes clients—internes et externes—soient des personnes techniques. Je trouve qu’il est très facile d’interagir avec eux ; même s’ils ne sont pas dans le même domaine que moi, ils comprennent mes défis et mes points de douleur.

Q : De quoi êtes-vous la plus fière dans votre carrière ?

R : Sur le plan technique, cela doit être la mise en œuvre du machine learning dans les serveurs API de DataDome. J’ai géré chaque aspect de ce projet, avec l’aide de l’équipe moteur dans la phase finale. Beaucoup des technologies impliquées étaient nouvelles pour moi, et j’ai touché presque tous les composants de l’infrastructure de DataDome.

Avec mes collègues, nous avons également posé les bases d’une équipe de machine learning vraiment solide chez DataDome. Je pense que mes compétences relationnelles se sont beaucoup améliorées au cours des dernières années.

Q : Quel conseil donneriez-vous à quelqu’un qui cherche à entrer dans le domaine de la cybersécurité ?

R : La cybersécurité est un domaine vaste. Personnellement, je ne connaissais rien à la cybersécurité avant de rejoindre DataDome, mais j’ai appris en lisant beaucoup et en posant beaucoup de questions.

Je dirais que si vous cherchez à vous lancer dans la cybersécurité, vous devez d’abord cibler le domaine sur lequel vous souhaitez vous concentrer, puis commencer à expérimenter. Si le domaine de DataDome vous intéresse, par exemple, vous pouvez commencer par créer quelques bots vous-même, essayer de scraper quelques sites web et voir ce qui se passe. Une autre excellente façon d’explorer différents domaines et d’acquérir de l’expérience pratique est de participer à des challenges de type Capture the Flag (CTF).

Q : Les femmes sont notoirement sous-représentées dans la cybersécurité ; comment avez-vous vécu cette expérience ?

R : Eh bien, je me trouve dans cette situation depuis que j’ai commencé à étudier la physique, mais honnêtement, je n’ai jamais eu de mauvaises expériences liées au fait d’être une femme dans un domaine dominé par les hommes. Peut-être que j’ai eu de la chance, ou peut-être que je n’ai tout simplement pas fait le lien. Je n’ai pas tendance à trop réfléchir à ces choses, et si quelqu’un est désagréable, je pense juste que c’est un idiot—je ne vais pas nécessairement croire que c’est parce que je suis une femme.

Q : Si vous deviez travailler dans une autre industrie ou un autre rôle, que choisiriez-vous ?

R : Mon rôle me convient parfaitement, et je ne peux pas imaginer quelque chose que je préférerais faire. Mais si je devais changer d’industrie, je choisirais peut-être le domaine médical. Il y a beaucoup de travail intéressant en cours, et si vous réussissez, vous pouvez vraiment changer la vie des gens pour le mieux.