RAP - Audition en Robotique
Nos travaux concernent la détection et la localisation de sources multiples large bande (e.g., parole) sur la base d'antennes de microphones ou de têtes binaurales (deux microphones).
En combinant des arguments d'analyse modale et d'optimisation convexe, nous avons instancié un algorithme MUSIC (MUltiple Signal Classification) cohérent dans des espaces de sortie de formation de voie pour des antennes linéaires uniformes. En conjonction avec notre estimé du minimum du critère d'information d'Akaike (MAICE) du nombre de sources actives, nous pouvons détecter et localiser jusqu'à 3 sources avec un coût calculatoire réduit [DanesBonnal_IROS2010].
Nous avons ensuite abordé le domaine de l'audition "active" binaurale [Argentieri_BlauertBook2012] (collaboration avec l'ISIR, Paris). L'objectif est d'exploiter conjointement la mobilité d'une tête binaurale en vue de surmonter les limitations rencontrées dans le cas statique (ambiguïté avant-arrière, non-observabilité de la distance,...). Notre approche comprend trois étapes : détection de l'activité des sources et estimation de leur arrangement spatial par traitement des signaux binauraux sur des fenêtre temporelles courtes ("détection court-terme") ; fusion de ces données avec les ordres moteurs du capteur au sein d'un schéma de filtrage stochastique ("localisation active/audio-motrice") ; commande en boucle fermée du mouvement du capteur afin d'améliorer la localisation ("mouvement actif/référencé information"). Les deux premières étapes ont été résolues dans le cas mono-source par : un estimateur du maximum de vraisemblance court-terme de la direction d'une source prenant en compte les effets de diffusion acoustique induits par la tête ; un détecteur d'activité de la source s'appuyant sur la théorie de l'information ; un filtre de Kalman unscented à mélange de Gaussiennes doté d'auto-initialisation, de consistence, ainsi que d'une capacité de gestion de fausses mesures et d'intermittence de la source [Portello_IROS2012] [Portello_IROS2013] (thèse d'A. Portello). Une extension à la détection court-terme de sources multiples a également été obtenue, sur la base de l'algorithme Espérance-Maximisation [Portello_IROS2014].
Un travail en cours concerne la localisation audio-motrice de sources mutliples et le mouvement baé information (thèse de G. Bustamante). Au confluent de la perception visuelle sur les humains et de l'audition binaurale, nous avons également abordé la détection et l'identification visio-auditives d'humains depuis le robot humanoïde ROMEO dans un contexte d'interaction proximale, de même que l'analyse spatio-temporelle de leurs comportements (thèse de L. Fitte-Duval).
Localisation active d'un locuteur depuis une tête binaurale sphérique (données réelles, obtenues en chambre quasi-anéchoïque)