Thèse : Augmenter les mesures de l’Internet avec des métadonnées pour une meilleure cartographie de l’Internet
- Candidat·e :
- Omar Darwich
- Date :
- 4 mai 2026 14:00
- Lieu :
- LAAS-CNRS - Salle de Conférences 7 avenue du colonel Roche 31077 TOULOUSE Cedex 4
- Unités :
- sara
- Délivré par :
- UPS, MITT
- Mots clefs :
Composition du jury
- Directeur·ice·s :
- Philippe Owezarski, Directeur de recherche, LAAS-CNRS
- Co-encadrant·e·s :
- Kévin Vermeulen, Chargé de Recherche CNRS, LIX
- Rapporteur·ice·s :
- Daphné Tuncer, Chercheuse, ENPC
Nadia Boukhatem, Professeure, Télécom Paris - Examinateur·ice·s :
- Kévin Jiokeng, Maitre de conférences, Ecole Polytechnique
Pascal Berthou, Professeur des universités, Université de Toulouse – LAAS-CNRS
Stéfano Secci, Professeur, CNAM
Résumé
Comprendre l’Internet à grande échelle est fondamentalement limité par une visibilité partielle, un contrôle décentralisé et la nature hétérogène des données de mesure disponibles. Bien qu’un large éventail de techniques de mesure du plan de contrôle et de mesures actives existe, de nombreuses observations de l’Internet manquent des informations contextuelles nécessaires à une interprétation pertinente. Cette thèse aborde ce défi en se concentrant sur l’enrichissement des données de mesure existantes de l’Internet avec des métadonnées sémantiques supplémentaires, non directement observables mais essentielles pour comprendre le comportement du réseau. L’objectif central de cette thèse est d’augmenter les données Internet largement disponibles — telles que les adresses IP, les informations de routage et les chemins inter-domaines — avec des attributs inférés apportant un contexte géographique, opérationnel et lié au trafic. Plutôt que de collecter de nouvelles mesures, ce travail développe des méthodes permettant d’extraire davantage d’informations à partir d’observations partielles et accessibles publiquement. La première contribution de cette thèse porte sur la géolocalisation des adresses IP. Elle propose une approche systématique pour évaluer, comparer et reproduire les résultats de géolocalisation à partir de sources de données publiques, en répondant à des problèmes persistants d’incohérence, de manque de transparence et d’absence de données de référence fiables. En améliorant la reproductibilité des mesures de géolocalisation, cette contribution permet des analyses géographiques plus fiables de l’infrastructure et du comportement de routage de l’Internet. La deuxième contribution traite de la visibilité limitée de l’ingénierie de trafic inter-domaines. Elle développe des techniques permettant d’inférer les actions d’ingénierie de trafic à partir des données de routage du plan de contrôle, malgré l’absence de signalement explicite dans le protocole BGP. Ces méthodes enrichissent les observations de routage en y intégrant des indices de comportements dictés par des politiques, améliorant ainsi l’interprétabilité de la dynamique du routage et facilitant une analyse plus précise des causes des changements de routage. La troisième contribution se concentre sur l’estimation des volumes de trafic inter-domaines à partir de données de mesure limitées. Elle propose des méthodes visant à compléter les informations de routage par des estimations de trafic, afin de réduire l’écart entre la visibilité du plan de contrôle et le comportement réel du plan de données. Cela permet d’obtenir une vision plus complète de l’impact des décisions de routage sur la distribution du trafic à l’échelle de l’Internet. Dans leur ensemble, ces contributions démontrent que l’enrichissement des mesures de l’Internet par des métadonnées inférées avec soin améliore significativement la portée, la précision et la reproductibilité des analyses. En reliant le contexte géographique, les intentions de routage et le comportement du trafic, cette thèse propose un cadre unifié pour l’étude de l’Internet à travers plusieurs couches, malgré sa décentralisation intrinsèque et sa visibilité limitée.
Abstract
Understanding the Internet at scale is fundamentally limited by partial visibility, decentralized control, and the heterogeneous nature of available measurement data. While a wide range of control plane and active measurement techniques exist, many Internet measurements lack the contextual information required for meaningful interpretation. This thesis addresses this challenge by focusing on the enrichment of existing Internet measurement data with additional semantic metadata that is not directly observable but is critical for understanding network behavior. The central objective of this thesis is to augment widely available Internet data—such as IP addresses, routing information, and interdomain paths—with inferred attributes that add geographic, operational, and traffic-related context. Rather than collecting entirely new measurements, this work develops methods that extract additional insight from partial and publicly accessible observations. The first contribution of the thesis focuses on IP geolocation. It presents a systematic approach for evaluating, comparing, and reproducing geolocation results using public data sources, addressing long-standing issues of inconsistency, lack of transparency, and limited ground truth. By improving the reproducibility of geolocation measurements, this contribution enables more reliable geographic analysis of Internet infrastructure and routing behavior. The second contribution addresses the limited visibility of interdomain traffic engineering. It develops techniques to infer traffic engineering actions from control plane routing data, despite the absence of explicit signaling in BGP. These methods enrich routing observations with evidence of policy-driven behavior, improving the interpretability of routing dynamics and supporting more accurate root cause analysis of routing changes. The third contribution focuses on estimating interdomain traffic volumes from limited measurement data. It proposes methods for augmenting routing information with traffic estimates, helping to bridge the gap between control plane visibility and actual data plane behavior. This enables a more complete view of how routing decisions affect traffic distribution across the Internet. Together, these contributions demonstrate that enriching Internet measurements with carefully inferred metadata significantly improves the scope, accuracy, and reproducibility of Internet analysis. By connecting geographic context, routing intent, and traffic behavior, this thesis provides a unified framework for studying the Internet across multiple layers, despite its inherent decentralization and limited observability.