Mes travaux se concentrent principalement autour de l'utilisation de probabilité, de la théorie de la mesure et de la théorie de l'information pour étudier la confidentialité dans plusieurs systèmes et protocoles informatiques. J'ai démontré les garanties théoriques et la robustesse des sequential private identifiers pour le protocole LoRaWAN. J'ai démontré aussi plusieurs résultats théoriques liant équité et confidentialité en apprentissage automatique.
Mes travaux les plus récents visent à montrer la possibilité de générer des données équitables et confidentielles. Pour cela je suis en train de développer les espaces métriques informationnels. Ce sont des espaces qui permettent de contourner le fait que la divergence de Kullback-Leibler n'est pas une distance. Grâce à cela je peux introduire des notions de convergence particulièrement utiles pour obtenir des propriétés sur des modèles après entraînement en partant de propriétés sur les données d'entraînement.
Dans cet article nous avons mis en avant comment l'attaque d'inférence d'attribut sensible pouvait être mitigée par des propriétés d'équité, notamment la parité démographique. J'ai démontré plusieurs liens théoriques entre ces notions et j'ai introduit la parité démographique généralisée. Ces travaux se concentrent sur des classifieurs binaires et attaquent des attributs sensibles binaires. Cependant j'ai inclus dans mon manuscrit de thèse des résultats plus généraux que je compte publier sous forme d'un autre article.
Ici nous avons créé une évolution du protocole IOT LoRaWAN qui permet d'assurer une plus grande confidentialité aux utilisateurs. Ma contribution est une analyse probabiliste visant à étudier la loi de probabilité des collisions de paquets engendrées par cette modification. Cela m'a amené à créer une nouvelle loi de probabilité discrète pour laquelle j'ai calculé les moments, la fonction de masse et la fonction de répartition. Je n'ai pas pu inclure ces développements dans l'article suite à une contrainte de place, je prévois donc de les publier séparément, voici la pré-publication. Dans cette publication, nous nous sommes donc restreint au calcul de l'espérance qui peut être fait facilement par le biais d'une chaîne de Markov mais qui ne permet pas d'obtenir la loi.
Dans cet article, nous avons mis au point un protocole permettant de masquer les attributs sensibles des participants à un apprentissage fédéré. Ma contribution a été de démontrer que cette méthode ne modifie pas le modèle aggloméré final. Pour cela j'ai juste eu à réaliser un calcul sur des sommes.
J'ai présenté dans cet exposé de 15 minutes comment la parité démographique est équivalente à dire que le maximum d'exactitude équilibrée possible de l'attaque d'inférence d'attribut sensbile est égal à où m est le cardinal du codomaine de la variable aléatoire qui modélise l'attribut sensible.
Cet exposé avait pour but de mettre en lumière l'impact du paramètre de régularisation dans la méthode \textit{Exponantiated gradient descent for fair classification} sur l'attaque d'inférence d'attribut sensible.
Dans cet exposé j'ai présenté mes premiers résultats expérimentaux qui mettent en avant les problèmes de confidentialité et d'équité. J'ai montré que sur de nombreux jeux de données réels (COMPAS, CENSUS, MEPS, CREDIT, LAW) on observe qu'une forêt aléatoire se comporte différement pour différents sous groupes de la population. J'ai présenté une première attaque qui permet d'inférer l'attribut sensible des utilisateurs au moment de l'inférence.
La protection de la confidentialité des données d'entraînement entre en conflit avec l'équité en apprentissage automatique. Dans ce papier je montre que ces notions peuvent s'aligner en passant par une génération de données synthétiques. Pour cela j'ai dû introduire plusieurs notions nouvelles en topologie :
Dans ce papier j'introduis un nouvel algorithme d'apprentissage ensembliste ayant pour but de maximiser l'exactitude équilibrée. Cela permet de prendre en compte le déséquilibre dans les classes lors de l'apprentissage. Comme expliqué dans mon manuscrit de thèse, cet algorithme est très utile pour l'audit de la fuite d'informations sur les attributs sensibles des utilisateurs de modèle d'apprentissage automatique.
On considère le problème suivant. On lance une pièce et on compte le nombre de fois où elle tombe sur pile. Combien de fois faut-il lancer la pièce avant d'obtenir $m$ fois pile sans interruption ? Dans cet article, je calcule la loi de probabilité du nombre de lancer de pièce avant d'obtenir une suite ininterrompue de piles. Cette étude est importante pour mieux comprendre la fiabilité de systèmes critiques basés sur la redondance des pièces comme en aéronautique spatiale ou dans certains protocoles réseau (eg. TCP, LoRaWAN).
J'ai été chargé de travaux dirigés en mathématiques au sein de la prépa intégrée de l'INSA Lyon pour la totalité d'un programme de première année réparti sur deux ans. J'ai donné ces cours en anglais car les étudiants faisaient parti de la section SCiences & ANglais (SCAN). J'ai également mis à disposition, sur mon site web, des enregistrements vidéos de corrections commentées d'exercices pour approfondir certaines notions.