PhD: Classification non supervisée de données hyperspectrales codées par tests statistiques

Candidat·e:
Trung-Tin DINH
Date:
17 décembre 2025 09:00
Lieu:
Observatoire Midi-Pyrénées Salle Coriolis 14 avenue Edouard Belin 31400 TOULOUSE
Unités:
IRAP UMR5277
Délivré par:
UPS, MITT
Mots clefs:
classification, imagerie hyperspectrale, tests statistiques, non supervisé, CASSI

Abstract

L’imagerie hyperspectrale enregistre simultanément l’information spatiale et spectrale d’une scène, chaque pixel étant décrit par un spectre de quelques dizaines à quelques centaines de bandes. Cette richesse spectrale ouvre la voie à de nombreuses applications, dont certaines reposent sur la classification spectrale pour différencier et identifier les matériaux. Traditionnellement, ces données sont acquises par balayage du cube hyperspectral, ce qui implique des temps d’acquisition élevés et des grands volumes de données. Pour pallier ces limitations, des dispositifs d’imagerie comprimée instantannée ont été développés, tels que le DD-CASSI (Dual-Disperser Coded Aperture Snapshot Spectral Imager), qui repose sur l’utilisation d’un masque codé. Au lieu d’un cube hyperspectral complet, on obtient des acquisitions codées. Sur chaque acquisition, en chaque pixel, on obtient une combinaison linéaire des composantes spectrales. Ces combinaisons linéaires dépendent du masque et de la dispersion du système. La stratégie classique consiste alors à reconstruire le cube complet, puis de faire la classification à partir de ce cube. Mais cette reconstruction est coûteuse et peut introduire des artefacts. La voie alternative proposée dans cette thèse consiste à développer une méthode opérant directement sur les données codées, sans passer par une étape de reconstruction. Ainsi, cette thèse propose une méthode de classification non supervisée à partir des données codées. La méthode proposée s’appuie sur l’exploitation des corrélations spectro-spatiales via l’hypothèse de séparabilité (SA1) dans les régions homogènes, introduite par Ardi (2020) dans le cadre de la reconstruction hyperspectrale. Plus précisément, on considère qu’une image hyperspectrale peut se décomposer en régions homogènes, chacune étant caractérisée par un spectre de référence unique, pondéré par des variations locales d’intensité. Dans le contexte de cette thèse, cette hypothèse peut être vue comme une modélisation simple de la variabilité spectrale intraclasse. Afin d’évaluer localement cette hypothèse, des tests statistiques sont appliqués sur des régions candidates. Pour cela, nous supposons que le bruit photonique, classiquement modélisé par une loi de Poisson, peut être approximé par un bruit gaussien, et exploitons des tests de gaussianité. En me basant sur l’hypothèse de séparabilité et des tests de gaussianité, j’ai proposé un algorithme itératif de classification non supervisée des données codées, CHOUCROUTE, reposant sur trois étapes principales : détection, croissance et fusion de régions homogènes appartenant à une même classe. L’algorithme proposé a été évalué sur des scènes hyperspectrales synthétiques et réalistes. Sur données synthétiques, il fournit des classifications cohérentes et proches de la vérité terrain. Sur données réalistes, l’évaluation est plus délicate en raison de la fiabilité limitée des annotations disponibles. Celles-ci ne rendent pas toujours compte de la complexité spectrale des scènes et peuvent biaiser la comparaison. L’étude inclut également une analyse de la sensibilité des résultats de classification aux choix des paramètres de l’algorithme. Ces expériences soulignent que les incertitudes liées la vérité terrain rendent délicate l’évaluation des méthodes de classification.