Annonce de soutenance

Thèse: Génération de données d’intrusion réseau par apprentissage profond de représentations

Candidat·e:: Gabin Noblet
Date:: 3 avril 2026 10:00
Lieu:: LAAS-CNRS - Salle de Conférences 7 avenue du colonel Roche 31077 TOULOUSE Cedex 4
Unités:: sara / CUSTOCY
Délivré par:: INSA Toulouse, MITT
Mots clefs:: Apprentissage automatique, Sécurité des réseaux, Apprentissage de représentation, Ingénierie des caractéristiques, Modélisation générative, Evaluation expérimentale

Résumé

Cette thèse propose une solution au problème de génération de données synthétiques de trafic réseau labellisées, essentielles pour l'entraînement et l'évaluation des systèmes de détection d'intrusions fondés sur l'apprentissage automatique. L'absence de jeux de données variés, actuels et annotés entrave leur performance, notamment face à des attaques sophistiquées, tel que les Advanced Persistent Threats (APTs). Nous développons NetGlyphizer, une méthode d'apprentissage de représentation discrète, inspirée du VQ-VAE, convertissant le trafic réseau en séquences de symboles discrets (NetGlyphs). Pour cela, nous proposons Nexus, un outil permettant de représenter le trafic réseau sous format Nxcap, un format de données réseau minimaliste représentant les flux comme séquences de paquets. Ce format permet de capturer la distribution temporelle et structurelle des paquets au sein d'un flux, avec plus de détail que des ensembles de statistiques descriptives. Le NetGlyphizer convertit ces flux en NetGlyphs, servant d'entrée à un modèle génératif fondé sur une architecture Transformer et conditionné par un label, afin de générer des séquences labellisées. Ces séquences sont ensuite décodées en flux réseau et exportées au format Pcap via l'outil Nexus. Le conditionnement par labels permet de générer du trafic spécifique pour divers scénarios ou classes de trafic, tout en préservant les propriétés statistiques et protocolaires des données originales. Les résultats confirment que le trafic synthétique reproduit fidèlement les caractéristiques du trafic réel, tant au niveau des distributions statistiques qu'au respect des protocoles. Ce travail introduit : (1) le format Nxcap et l'outil Nexus, (2) NetGlyphizer, un mécanisme d'apprentissage de représentation discrète pour le trafic réseau, et (3) la génération contrôlée, basée sur l'architecture Transformer, de trafic synthétique compatible avec les outils d'analyse existants.