Lettre du LAAS

Publication trimestrielle du Laboratoire
d'analyse et d'architecture des systèmes du CNRS

Les facteurs cliniques, tels que l'âge du patient et les variables histo-pathologiques, constituent encore la base quotidienne de prise de décision pour la gestion du cancer du sein. Cependant, avec l'émergence de la technologie à haut débit, le profil d'expression génique suscite un intérêt croissant pour construire des outils plus précis de prédiction du cancer du sein. Néanmoins, plusieurs challenges doivent être relevés pour le développement de tels outils, principalement: (1) la dimensionnalité des données issues de la technologie des puces, (2) le faible rapport signal sur bruit de la mesure issue de biopuces, (3) l'incertitude d'appartenance des patients aux différents groupes du cancer, et (4) l'hétérogénéité des données présentes habituellement dans les bases de données cliniques.Dans ce travail, nous abordons l'utilisation de techniques d'apprentissage automatique pour surmonter de manière appropriée de tels challenges. Une première approche aborde le problème de haute dimensionnalité des données en utilisant les capacités d'apprentissage dit normé â„“1 pour la conception d'un algorithme de sélection de variables intégré à la méthode SVM (machines à vecteurs supports), algorithme basé sur une technique de gradient. Une deuxième approche permet de gérer simultanément tous les problèmes, en particulier l'intégration de plusieurs sources de données (cliniques, puces à ADN, ...) pour construire des outils prédictifs plus précis. Pour cela un principe unifié est proposé pour surmonter le problème de l'hétérogénéité des données. Pour tenir compte de l'incertitude d'appartenance, ce principe est proposé dans le cadre de la logique floue. Par ailleurs, afin d'atténuer le problème du bruit de niveau élevé, une approche symbolique est proposée suggérant l'utilisation de la représentation par intervalle pour modéliser les mesures bruitées. Nous avons en particulier conçu en se basant sur ce principe, deux méthodes floues de pondération des variables dans un contexte supervisé et non supervisée. Le processus de pondération repose essentiellement sur la définition d'une marge d'appartenance pour chaque échantillon. Il optimise une fonction objectif basée sur la marge d'appartenance afin d'éviter la recherche combinatoire.L'efficacité de toutes les approches a été évaluée par des études expérimentales extensives, et comparée avec des méthodes bien connues de l'état de l'art. Enfin, un dernier travail est consacré à l'application des approches proposées dans le domaine du cancer du sein. En particulier, des modèles prédictifs et pronostiques ont été extraits à partir des données de puces à ADN et/ou des données cliniques, et leurs performances comparées avec celles d'approches génétiques et cliniques existantes.