Laboratoire d’Analyse et d’Architecture des Systèmes
D.BOTERO GALEANO
RAP
Doctorat : INSA Toulouse, 5 Décembre 2012, 149p., Président: J.Y.FOURNIOLS, Rapporteurs: F.BERRY, R.CARMONA GALAN, Examinateurs: R.KLEIHORST, J.MITERAN, J.PIAT, Directeurs de thèse: M.DEVY, J.L.BOIZARD , N° 12681
Lien : http://tel.archives-ouvertes.fr/tel-00771869
Diffusable
Plus d'informations
Due to the increase of traffic volume and complexity of new transport systems, new Advanced Driver Assistance Systems (ADAS) are a subject of research of many companies, laboratories and universities. These systems include algorithms with techniques that have been studied during the last decades like Simultaneous Lo- calization and Mapping (SLAM), obstacle detection, stereo vision, etc. Thanks to the advances in electronics, robotics and other domains, new embedded systems are being developed to guarantee the safety of the users of these critical systems. For most of these systems a low power consumption as well as reduced size is required. It creates the constraint of execute the algorithms in embedded devices with limited resources. In most of algorithms, moreover for computer vision ones, a big amount of data must be processed at high frequencies, this amount of data demands strong computing resources. FPGAs satisfy this requirement; its parallel architecture combined with its low power consumption and exibility allows developing and executing some algorithms more efficiently than any other processing platforms. In this thesis different embedded computer vision architectures intended to be used in ADAS using FPGAs are presented such as: We present the implementation of a distortion correction architecture operating at 100 Hz in two cameras simultaneously. The correction module allows also to rectify two images for implementation of stereo vision. Obstacle detection algorithms based on Inverse Perspective Mapping (IPM) and classiffication based on Color/Texture attributes are presented. The IPM transform is based in the perspective effect of a scene perceived from two different points of view. Moreover results of the detection algorithms from color/texture attributes applied on a multi-cameras system, are fused in an occupancy grid. An accelerator to apply homographies on images, is presented; this accelerator can be used for different applications like the generation of Bird's eye view or Side view. Multispectral vision is studied using both infrared images and color ones. Syn- thetic images are generated from information acquired from visible and infrared sources to provide a visual aid to the driver. Image enhancement specific for infrared images is also implemented and evaluated, based on the Contrast Lim- ited Adaptive Histogram Equalization (CLAHE). An embedded SLAM algorithm is presented with different hardware acceler- ators (point detection, landmark tracking, active search, correlation, matrix operations). All the algorithms were simulated, implemented and verified using as target FPGAs. The validation was done using development kits. A custom board integrating all the presented algorithms is presented. Virtual components developed in this thesis were used in three different projects: PICASSO (stereo vision), COMMROB (obstacle detection from a multi-cameras system) and SART (multispectral vision).
En raison de l'augmentation du volume et de la complexité des systèmes de transport, de nouveaux systèmes avancés d'assistance à la conduite (ADAS) sont étudiés dans de nombreuses entreprises, laboratoires et universités. Ces systèmes comprennent des algorithmes avec des techniques qui ont été étudiés au cours des dernières décennies, comme la localisation et cartographie simultanées (SLAM), détection d'obstacles, la vision stéréoscopique, etc. Grâce aux progrès de l'électronique, de la robotique et de plusieurs autres domaines, de nouveaux systèmes embarqués sont développés pour garantir la sécurité des utilisateurs de ces systèmes critiques. Pour la plupart de ces systèmes, une faible consommation d'énergie ainsi qu’une taille réduite sont nécessaires. Cela crée la contrainte d'exécuter les algorithmes sur les systèmes embarqués avec des ressources limitées. Dans la plupart des algorithmes, en particulier pour la vision par ordinateur, une grande quantité de données doivent être traitées à des fréquences élevées, ce qui exige des ressources informatiques importantes. Un FPGA satisfait cette exigence, son architecture parallèle combinée à sa faible consommation d'énergie et la souplesse pour les programmer permet de développer et d'exécuter des algorithmes plus efficacement que sur d’autres plateformes de traitement. Les composants virtuels développés dans cette thèse ont été utilisés dans trois différents projets: PICASSO (vision stéréoscopique), COMMROB (détection d'obstacles à partir d'une système multicaméra) et SART (Système d’Aide au Roulage tous Temps).
A.DURAND PETITEVILLE
RAP
Doctorat : Université Paul Sabatier, Toulouse, 20 Janvier 2012, 125p., Président: M.DEVY, Rapporteurs: F.CHAUMETTE, P.MARTINET, Examinateurs: D.FOLIO, Directeurs de thèse: V.CADENAT, M.COURDESSES , N° 12163
Lien : http://tel.archives-ouvertes.fr/tel-00694329
Diffusable
Plus d'informations
Dans ce travail, nous nous intéressons à la navigation référencée vision d'un robot mobile équipé d'une caméra dans un environnement encombré d'obstacles possiblement occultants. Pour réaliser cette tâche, nous nous sommes appuyés sur l'asservissement visuel 2D. Cette technique consiste à synthétiser une loi de commande basée sur les informations visuelles renvoyées par la caméra embarquée. Le robot atteint la situation désirée lorsque les projections dans l'image de l'amer d'intérêt, appelés indices visuels, atteignent des valeurs de consigne prédéfinies. La navigation par asservissement visuel 2D nécessite de s'intéresser à trois problèmes : garantir l'intégrité du robot vis-à-vis des obstacles, gérer les occultations des amers d'intérêts et réaliser de longs déplacements. Nos contributions portent sur les deux derniers problèmes mentionnés. Dans un premier temps nous nous sommes intéressés à l'estimation des indices visuels lorsque ceux-ci ne sont plus disponibles à cause d'une occultation. La profondeur étant un paramètre déterminant dans ce processus, nous avons développé une méthode permettant de l'estimer. Celle-ci est basée sur une paire prédicteur/correcteur et permet d'obtenir des résultats exploitables malgré la présence de bruits dans les mesures. Dans un second temps, nous nous sommes attachés à la réalisation de longs déplacements par asservissement visuel. Cette technique nécessitant de percevoir l'amer d'intérêt dès le début de la tâche, la zone de navigation est limitée par la portée de la caméra. Afin de relaxer cette contrainte, nous avons élaboré un superviseur que nous avons ensuite couplé à une carte topologique intégrant un ensemble d'amers caractéristiques de l'environnement. La tâche de navigation globale peut alors être décomposée sous la forme d'une séquence d'amers à atteindre successivement, la sélection et l'enchainement des mouvements nécessaires étant effectués au sein du superviseur. Les travaux ont été validés par le biais de simulations et d'expérimentations, démontrant la pertinence et l'efficacité de l'approche retenue.
This work focuses on the navigation of a mobile robot equipped with a camera in a cluttered environment. To perform such a task, we propose to use the image based visual servoing (IBVS). This method consists in designing a control law using visual features provided by the camera. These features are defined by the projection of a characteristic landmark on the image plane. The IBVS based navigation requires to address three issues : the robot security with respect to the obstacles, the management of the occlusions and the long range navigation realization. Our contributions are mainly focused on the two last mentioned problems. First, we have dealt with the visual features estimation problem during occlusions. As the visual features depth is an important parameter in this process, we have developed a predictor/corrector pair able to estimate its value on-line. This method has provided nice results, even when the used measures are noisy. Second, we have considered the problem of performing a long range navigation with an IBVS. However, classically, using this kind of controller greatly limits the realizable displacement because the reference landmark must be seen from the beginning to the end of the mission. To relax this constraint, we have developed a topological map and a supervision algorithm which have then been coupled. The first one contains the most characteristic landmarks of the environment. Using this information, it is possible to divide the global navigation task into a sequence of landmarks which must be successively reached. The supervision algorithm then allows to select the right task at the right instant and to guarantee a smooth switch between the different motions. Our works have been validated by simulations and experimentations, demonstrating the efficiency of our approach.
B.DUCAROUGE
RAP
Doctorat : Institut National des Sciences Appliquées, Toulouse, 26 Septembre 2011, 134p., Président: J.Y.FOURNIOLS, Rapporteurs: F.MERIAUDEAU, P.STURM, Examinateurs: F.DEVERNAY, T.SENTENAC, Directeurs de thèse: M.DEVY , N° 11831
Lien : http://tel.archives-ouvertes.fr/tel-00681977
Diffusable
Plus d'informations
Ces travaux de thèse ont été menés dans le contexte du projet ANR blanc "Real Time and True Temperature measurement" (R3T), dédié à la métrologie thermique à partir de mesures dans l'infrarouge. L'estimation d'une température vraie à partir d'une mesure de température apparente par une caméra infrarouge, exploite un modèle radiométrique dans lequel apparaît des facteurs qui dépendent de la nature et de la forme de l'objet considéré. Ces travaux portent sur la construction d'un modèle géométrique de l'objet à partir de caméras infrarouges déplacées par un robot autour d'un objet. Ces caméras, par rapport à des caméras standards, ont des caractéristiques spé- ciques : faible résolution, peu de texture. An de faciliter la mise en oeuvre et de minimiser la complexité du système nal, nous avons choisi une approche de stéréovision non calibrée. Nous avons donc un banc de stéréovision infrarouge embarqué sur un robot cartésien, pour acquérir plusieurs vues de l'objet d'intérêt ; les principales étapes concernent la rectication non calibrée des images acquises par le banc stéréo, puis le calibrage des caméras rectiées et de la relation main-oeil sans utilisation de mire, puis la construction de modèles 3D locaux denses et le recalage de ces modèles partiels pour construire un modèle global de l'objet. Les contributions portent sur les deux premières étapes, rectication et calibrage pour la stéréovision. Pour la rectication non calibrée, il est proposé une approche d'optimisation sous contraintes qui estime les homographies, à appliquer sur ces images pour les rectier, sans calcul préalable de la matrice Fondamentale, tout en minimisant les déformations projectives entre images d'origine et images rectiées. La fonction coût est calculée à partir de la distance de Sampson avec une décomposition de la matrice fondamentale. Deux types de contraintes, géométriques et algébriques, sont compar és pour minimiser les déformations projectives. L'approche proposée est comparée aux méthodes proposées par Loop et Zhang, Hartley, Mallon et al... sur des jeux de données classiques de la littérature. Il est montré que les résultats sont au moins équivalents sur des images classiques et meilleurs sur des images de faible qualité comme des images infrarouges. Pour le calibrage sans mire, l'auteur propose de calibrer les caméras ainsi que la transformation main-oeil, indispensable dès lors que le banc stéréo est porté par un robot, en une seule étape ; l'une des originalités est que cette méthode permet de calibrer les caméras préalablement rectiées et ainsi de minimiser le nombre de paramètres à estimer. De même plusieurs critères sont proposés et évalués par de nombreux résultats sur des données de synthèse et sur des données réelles. Finalement, les méthodes de stéréovision testées pour ce contexte applicatif sont rapidement décrites ; des résultats expérimentaux acquis sur des objets sont présent és ainsi que des comparaisons vis-à-vis d'une vérité terrain connue.
This dissertation was lead in the context of the R3T project (Real Time and True Temperature measurement), dedicated to metrology from thermal infrared measurements. The estimation of true temperature from apparent temperature measurement by an infrared camera uses a radiometric model which depends on nature and shape of the considered object. This work focuses on the construction of a geometric model from infrared cameras moved by a robot around an object. Those cameras, in comparison with standard ones, have specic characteristics : low resolution, low texture. To minimize the complexity and easily implement the nal system, we chose an stereo approach using uncalibrated cameras. So we have an infrared stereoring embeded on a Cartesian robot, to acquire multiple views of the object of interest. First, the main steps implemented concern uncalibrated images rectication and autocalibration of infrared stereoring and hand-eye transformation without use of a calibration pattern. Then, the reconstruction of locals 3D models and the merge of these models was done to reach a global model of the object. The contributions cover the rst two stages, rectication and autocalibration, for the other stereo reconstruction steps, dierent algorithms were tested and the best was chosen for our application. For the uncalibrated images rectication, an optimization approach under constraints is proposed. The estimation of rectication homographies is done, without the Fundamental matrix determination, while minimizing the distortion between original and corrected images. The cost function is based on the Sampson's distance with breakdown of the Fundamental matrix. Two constraints, geometrical and analytical, are compared to minimize distortion. The proposed approach is compared to methods proposed by Loop and Zhang, Hartley, Mallon et al ... on data sets from state of art. It is shown that the results are at least equivalent on conventional images and better on low quality images such as infrared images. For the autocalibration, the author proposes to calibrate cameras and hand-eye transformation, essential whenever the stereoring is embeded on a robot, in one step. One of the originality is that this method allows to calibrate rectied cameras and so minimize the number of parameters to estimate. Similarly, several criteria are proposed and evaluated by numerous results on synthetic and real data. Finally, all methods of stereovision tested for this application context are briey described, the experimental results obtained on objects are presented and compared to ground truth.
Y.RAOUI
RAP
Doctorat : Institut National Polytechnique, Toulouse, 29 Avril 2011, 154p., Président: M.GHARBI, Rapporteurs: F.E.ABABSA, F.REGRAGUI, Examinateurs: A.HERBULOT, Directeurs de thèse: M.DEVY, E.H. BOUYAKHF , N° 11514
Diffusable
Plus d'informations
Ce mémoire concerne les techniques d'indexation dans des bases d'image, ainsi que les méthodes de localisation en robotique mobile. Il fait le lien entre les travaux en Perception du pôle Robotique et Intelligence Artificilelle du LAAS-CNRS, et les recherches sur la fouille de données menées à l'Université de Rabat. Depuis une dizaine d'années, la vision est devenue une source de données sensorielles essentielles sur les robots mobiles: elle fournit en particulier des représentations de l'environnement dans lequel doit se déplacer un robot. Deux types de représentations peuvent être construites. D'une part les modèles géométriques 3D sont constitués de points, de courbes ou de surfaces extraits et reconstruits depuis une séquence d'images; ces modèles permettent au robot de se localiser précisément sous la forme d'une position et d'une orientation dans un repère métrique. D'autre part les modèles fondés sur l'apparence, sont obtenus à partir d'une base d'images acquises lors de déplacements effectués de manière supervisée durant une phase d'apprentissage: des techniques d'analyse de données (ACP, ACI) permettent d'extraire les données les plus pertinentes de cette base; ces modèles permettent au robot de se localiser de manière qualitative ou topologique dans l'environnement. Concernant la vision, seules les représentations fondées sur l'apparence ont été considérées. Le robot se localise en recherchant dans la base d'images, celle qui ressemble le plus à l'image courante : les techniques exploitées pour ce faire sont des méthodes d'indexation, similaires à celles exploitées en fouille de données sur Internet par exemple. De nombreux travaux en Robotique ont déjà exploité ces techniques: citons au LAAS-CNRS une thèse soutenue en 2004, qui traitait déjà de localisation qualitative dans un milieu naturel à partir d'une base d'images panoramiques, indexée par des histogrammes couleur; plus récemment, des travaux menés à Amsterdam, Rennes, Clermont-Ferrand, Lausanne. . . traitaient de l'indexation par des techniques d'appariements de points d'intérêt. Par ailleurs, nous présentons une technique de navigation par RFID (Radio Frequency IDentifier) qui utilise la méthode MonteCarlo, appliquée soit de manière intuitive, soit de manière formelle. Enfin, nous donnons des résultats très péliminaires sur la combinaison d'une perception par capteurs RFID et par capteurs visuels afin d'améliorer la précision de la localisation du robot mobile.
B.COUDRIN
RAP
Doctorat : Université Paul Sabatier, Toulouse, 2 Mars 2011, 146p., Président: J.P.JESSEL, Rapporteurs: F.PRETEUX, Y.VOISIN, Examinateurs: M.DHOME, Directeurs de thèse: M.DEVY, J.J.ORTEU , N° 11488
Non diffusable
125332M.IBARRA MANZANO
RAP
Doctorat : Institut National des Sciences Appliquées, Toulouse, 6 Janvier 2011, 154p., Président: M.DEVY, Rapporteurs: M.AKIL, D.GINHAC, Examinateurs: J.L.BOIZARD, P.COUSSY, Directeurs de thèse: J.Y.FOURNIOLS , N° 11838
Lien : http://tel.archives-ouvertes.fr/tel-00685828
Diffusable
Plus d'informations
one of the more important tasks to be executed on a mobile robot, concerns the detection of obstacles during the robot motions. Many methods have been proposed for this function: nevertheless their performances are limited when applied in a structured environment made highly dynamic and cluttered due to humans. This document presents a visual and flexible system for obstacle detection in such an environment. The system is made of several micro-cameras fixed all around the robot body, and of a programmable electronic board. The camera number must be large enough (4 in the current version, 8 in the future one), so that real-time performances mandatory for such a function, cannot be reached from a standard multipurpose processor. It makes compulsory to design and to implement a hardware architecture devoted for image processing. The execution of parallel processes on FPGAs allows to reach real-time performances, while minimizing the required energy and the system cost. The system objective consists in building and updating a robot-centered occupancy grid while the robot is navigating. This function must be executed at 30Hz, in order to minimize the latency between image acquisition and obstacle detection. The detection of occupied ground areas is given by a classification algorithm, using an AdaBoost classifier on characteristic vectors. These vectors are built from color and texture attributes. For the color, the CIE-Lab space has been selected because it allows a better invariance according to the light variations. For the texture, an original method has been proposed adapting the Unser approach based on sum and difference histograms. This approach has been modified in order to reduce significantly the resources required to compute the texture attributes, while providing a fine model for every object detected on a scene acquired by each micro-camera. Each pixel in every image is classified as Ground or Obstacle, with respect to its color and texture attributes. Once a pixel is classified, it is projected on the ground plane in order to update the current occupancy grid built to represent the environment. Many parameters for our approach have been selected in order to develop a system with the better trade-off between performances and consumed resources. Every proposed architecture is evaluated using curves between classification performances and required resources. These architectures have been developed in VHDL using the Altera tool boxes; this classical approach has been compared with a method based on tools providing high level synthesis (Gaut, labview...). Finally all architectures avec been implemented and evaluated on a Stratix3 development kit connected to four cameras, and embedded on a mobile robot.
l'une des tâches les plus importantes en robotique mobile est la détection d'obstacles pendant les déplacements du robot. Pour résoudre cette tâche, de nombreuses approches ont été proposées; cependant les propositions applicables dans un milieu structuré, dynamique et fortement encombré du fait de la présence humaine, sont limitées. Dans ce cadre, nous présentons dans ces travaux un système visuel reprogrammable dédié à la détection d'obstacles. Le système est composé de plusieurs micro-caméras disposées autour du robot mobile et d'un système reprogrammable. Le nombre de micro-caméras est grand (4 dans la version courante, 8 dans la version finale) et la performance en temps réel requis dans ce contexte, ne peut pas être satisfaite par un processeur standard. Cela rend obligatoire la conception et la mise en oeuvre d'une architecture dédiée pour le traitement des images. Le parallélisme fourni par les FPGAs permet de répondre aux contraintes de performance et de minimiser l'énergie et le coût unitaire du système. L'objectif est de construire et mettre à jour une grille d'occupation robot-centrée lors de la navigation du robot. Cette opération doit être exécutée à 30Hz, afin de réduire la latence entre l'acquisition des images et la détection des obstacles. La détection des zones du sol occupées est faite par l'algorithme de classification AdaBoost en utilisant un vecteur d'attributs. Les attributs utilisés sont la couleur et la texture. Pour la couleur, nous utilisons l'espace de couleur CIE-Lab, car cela permet d'avoir une plus grande immunité au changement de l'éclairage. Les attributs de texture sont obtenues par une méthode adaptée de la technique des histogrammes de sommes et différences. Cette adaptation réduit considérablement les ressources nécessaires pour calculer les attributs de texture, tout en fournissant un modèle riche de chacun des objets présents dans une scène acquise par une des micro-caméras. Chaque pixel dans l'image est classifié pour savoir s'il appartient ou pas au sol, en fonction de ces attributs couleur-texture. Une fois le pixel classé, il est projeté sur le plan du sol pour enrichir la grille d'occupation courante de l'environnement. Plusieurs paramètres de notre approche ont été sélectionnés afin de développer un système avec le meilleur compromis entre les performances et les ressources consommées. Les graphiques de performances de la classification ainsi que les ressources consommées par les architectures implantées sont présentés. Les architectures ont été développées en VHDL avec les outils Altera; des comparaisons sont présentées avec une approche fondée sur des outils de synthèse haut-niveau (Gaut, labview...). Finalement ces architectures ont été portées et évaluées sur un kit Stratix3 connecté à 4 caméras et embarqué sur un robot mobile.
J.HARVENT
RAP
Doctorat : Université Paul Sabatier, Toulouse, 5 Novembre 2010, 150p., Président: J.P.JESSEL, Rapporteurs: J.M.LAVEST, F.MERIAUDEAU, Examinateurs: B.WATTRISSE, Directeurs de thèse: J.J.ORTEU, M.DEVY , N° 10926
Lien : http://tel.archives-ouvertes.fr/tel-00579461/fr/
Diffusable
Plus d'informations
In 2006 the Ecole des Mines d'Albi and the LAAS-CNRS initiated a collaboration with AIRBUS Toulouse and EADS-IW for the development of a computer-vision-based system for the inspection of aeronautic parts (fuselage parts, metallic or composite aeronautical panels, etc.) in order to detect shape defects (shape deviation with regard to the desired overall shape corresponding to the CAD model). The system is composed of several cameras (at least four) giving the capacity to inspect large parts. The cameras are fixed on a rigid structure and the parts to be inspected are positioned in front of the system. Several images are acquired synchronously and they are used to reconstruct the 3D model of the part. This thesis focuses on different strategies that can be developed to manage a multiple-camera system. The different steps of the digitization process are presented, namely: multiple-view digital image correlation (a multipleimage DIC criterion well suited to the multiple views context is addressed), 3D cloud stitching, calibration assistance unit. Using more than two cameras has brought multiple benefits. It allows digitizing large aeronautic parts (several m²), provides the whole shape of an object in a one-shot acquisition, improves the accuracy thanks to data redundancy, and permits to avoid specular reflections on non-lambertian surfaces. Our algorithms have been evaluated through synthetic images as well as through the comparison with measurements acquired by different commercial digitizing systems.
L'École des Mines d'Albi et le LAAS-CNRS ont engagé en 2006 une collaboration avec AIRBUS Toulouse et EADS-IW pour le développement d'un système de vision artificielle destiné à l'inspection de pièces aéronautiques (panneaux de fuselage ou de voilure, métalliques ou composites) en vue de la détection de défauts de forme (écarts à la forme nominale souhaitée). Le système est constitué de plusieurs caméras (au moins quatre) afin de pouvoir inspecter des pièces de grande taille. Les caméras sont fixées sur une structure rigide statique et les pièces à inspecter sont positionnées devant cette structure. N images de la pièce à inspecter sont acquises de façon synchronisée et sont utilisées afin de reconstruire la pièce observée en 3D. Ce mémoire aborde les différentes stratégies envisagées pour l'exploitation d'un système multi-caméras. Les étapes nécessaires à la numérisation d'une pièce sont présentées, et plus particulièrement : l'appariement par corrélation multi-images (un critère de corrélation multi-images bien adapté au contexte multi-caméras est décrit), le recalage de nuages de points 3D par corrélation d'images, et l'aide au calibrage. L'utilisation de plusieurs caméras a montré de nombreux avantages. Elle permet la numérisation d'objets de grande taille (surface de plusieurs m²), fournit la forme complète d'un objet à partir d'une seule acquisition d'images (acquisition one-shot), améliore la précision de numérisation grâce à la redondance d'informations, permet de s'affranchir de problèmes de réflexion spéculaire dans le cas d'objets réfléchissants. Les algorithmes développés ont été évalués à la fois à partir d'images synthétiques et par comparaison aux mesures fournies par plusieurs systèmes commerciaux de numérisation 3D
T.GERMA
RAP
Doctorat : Université Paul Sabatier, Toulouse, 24 Septembre 2010, 123p., Président:M.DEVY, Rapporteurs: E.COLLE, J.M.ODOBEZ, Examinateurs: P.DALLE, W.PUECH, Directeurs de thèse: F.LERASLE , N° 10710
Lien : http://tel.archives-ouvertes.fr/tel-00547001/fr/
Diffusable
Plus d'informations
Ces travaux de thèse s'inscrivent dans le cadre du projet européen CommRob impliquant des partenaires académiques et industriels. Le but du projet est la conception d'un robot compagnon évoluant en milieu structuré, dynamique et fortement encombré par la présence d'autres agents partageant l'espace (autres robots, humains). Dans ce cadre, notre contribution porte plus spécifiquement sur la perception multimodale des usagers du robot (utilisateur et passants). La perception multimodale porte sur le développement et l'intégration de fonctions perceptuelles pour la détection, l'identification de personnes et l'analyse spatio-temporelle de leurs déplacements afin de communiquer avec le robot. La détection proximale des usagers du robot s'appuie sur une perception multimodale couplant des données hétérogènes issues de différents capteurs. Les humains détectés puis reconnus sont alors suivis dans le flot vidéo délivré par une caméra embarquée afin d'en interpréter leurs déplacements. Une première contribution réside dans la mise en place de fonctions de détection et d'identification de personnes depuis un robot mobile. Une deuxième contribution concerne l'analyse spatio-temporelle de ces percepts pour le suivi de l'utilisateur dans un premier temps, de l'ensemble des personnes situées aux alentours du robot dans un deuxième temps. Enfin, dans le sens des exigences de la robotique, la thèse comporte deux volets : un volet formel et algorithmique qui tire pertinence et validation d'un fort volet expérimental et intégratif. Ces développements s'appuient sur notre plateforme Rackham et celle mise en oeuvre durant le projet CommRob.
This work has been realized under the CommRob european project involving several academic and industrial partners. The goal of this project is to build a robot companion able to act in structured and dynamic environments cluttered by other agents (robots and humans). In this context, our contribution is related to multimodal perception of humans from the robot (users and passers-by). The multimodal perception induce the development and integration of perceptual functions able to detect, to identify the people and to track the motions in order to communicate with the robot. Proximal detection of the robot's users uses a multimodal perception framework based on heterogeneous data fusion from different sensors. The detected and identified users are then tracked in the video stream extracted from the embedded camera in order to interpret the human motions. The first contribution is related to the definition of perceptual functions for detecting and identifying humans from a mobile robot. The second contribution concerns the spatio-temporal analysis of these percepts for user tracking. Then, this work is extended to multi-target tracking dedicated to the passers by. Finally, as it is frequently done in robotics, our work contains two main topics : on one hand the approaches are formalized; on the other hand, these approaches are integrated and validated through live experiments. All the developments done during this thesis has been integrated on our platform Rackham and on the CommRob platform too.
B.BURGER
RAP
Doctorat : Université Paul Sabatier, Toulouse, 29 Janvier 2010, 167p., Président: M.DEVY, Rapporteurs: O.BERNIER, L.BESACIER, Examinateurs: O.COLOT, P.JOLY, P.SAYD, Directeurs de thèse: F.LERASLE, I. FERRANE , N° 10303
Lien : http://tel.archives-ouvertes.fr/tel-00494382/fr/
Diffusable
Plus d'informations
In the framework of assistance robotics, this PHD aims at merging two channels of information (visual and auditive) potentially available on a robot. The goal is to complete and/or confirm data that an only channel could have supplied in order to perform advanced interaction between a human and a robot. To do so, we propose a perceptual interface for multimodal interaction which goal is to interpret jointly speech and gesture, in particular for the use of spatial references. In this thesis, we first describe the speech part of this work which consists in an embedded recognition and interpretation system for continuous speech. Then comes the vision part which is composed of a visual multi-target tracker that tracks, in 3D, the head and the two hands of a human in front of the robot, and a second tracker for the head orientation. The outputs of these trackers are used to feed the gesture recognition system described later. We continue with the description of a module dedicated to the fusion of the data outputs of these information sources in a probabilistic framework. Last, we demonstrate the interest and feasibility of such a multimodal interface through some demonstrations on the LAAS-CNRS robots. All the modules described in this thesis are working in quasi-real time on these real robotic platforms.
Dans le cadre de la robotique d'assistance, cette thèse a pour but de fusionner deux canaux d'informations (visuelles et auditives) dont peut disposer un robot afin de compléter et/ou confirmer les données qu'un seul canal aurait pu fournir, et ce, en vue d'une interaction avancée entre homme et robot. Pour ce faire, nos travaux proposent une interface perceptuelle pour l'interaction multimodale ayant vocation à interpréter conjointement parole et geste, notamment pour le traitement des références spatiales. Nous décrivons dans un premier temps la composante parole de nos travaux qui consiste en un système embarqué de reconnaissance et d'interprétation de la parole continue. Nous détaillons ensuite la partie vision composée d'un traqueur visuel multi-cibles chargé du suivi en 3D de la tête et des deux mains, ainsi que d'un second traqueur chargé du suivi de l'orientation du visage. Ces derniers alimentent un système de reconnaissance de gestes par DBNs décrit par la suite. Nous poursuivons par la description d'un module chargé de la fusion des données issues de ces sources d'informations dans un cadre probabiliste. Enfin, nous démontrons l'intérêt et la faisabilité d'une telle interface multimodale à travers un certains nombre de démonstrations sur les robots du LAAS-CNRS. L'ensemble de ces travaux est fonctionnel en quasi-temps réel sur ces plateformes robotiques réelles.
M.FONTMARTY
RAP
Doctorat : Université Paul Sabatier, Toulouse, 2 Décembre 2008, 144p., Président: P.DALLE, Rapporteurs: M.O.BERGER, P.PEREZ, Examinateurs: J.BENOIS-PINEAU, Directeurs de thèse: F.LERASLE, P.DANES, Membre invité: M.DEVY , N° 08839
Lien : http://tel.archives-ouvertes.fr/tel-00400305/fr/
Diffusable
Plus d'informations
Un défi majeur de la Robotique aujourd'hui est sans doute celui du robot personnel. Un objectif sous-jacent est de permettre à un robot mobile de naviguer de manière autonome dans un environnement de grandes dimensions en présence de public. Lors de son évolution, le robot doit pouvoir détecter et prendre en compte la présence d'humains dans son voisinage, par exemple pour les éviter, leur céder le passage, faciliter ou sécuriser leurs déplacements. Cependant, pour une interaction active, le robot doit également être capable de percevoir et d'interpréter leurs postures, leurs démarches ou leurs gestes. Dans ce but, nous souhaitons mettre en place un système de suivi visuel des mouvements humains à partir des caméras embarquées sur le robot. Une représentation 3D fruste de l'enveloppe corporelle est proposée à partir de considérations biomécaniques et anthropomorphes. La démarche consiste alors à recaler ce modèle dans les images obtenues en exploitant plusieurs indices visuels 2D (contours, couleur, mouvements) complétés par une reconstruction 3D éparse de la scène. Pour estimer les paramètres de situation et de configuration du modèle 3D, nous exploitons les techniques de filtrage particulaire, bien connues en suivi visuel. Des évolutions de l'algorithme générique de filtrage sont cependant envisagées afin de répondre plus efficacement au problème posé et de satisfaire des contraintes temporelles cohérentes avec le contexte applicatif. Afin d'aborder les problèmes de manière graduelle, deux contextes sont étudiés. Le premier, de type robotique ubitquiste, repose sur l'utilisation de caméras d'ambiance fixes proposant des points de vue différents et complémentaires de la scène à étudier. Le second, de type robotique mobile, exploite des caméras stéréoscopiques embarquées sur le robot.Ce travail a été effectué au sein du groupe Robotique Action Perception (RAP) du LAAS-CNRS.
A major challenge in Robotics is the one of the personal robot. An underlying goal is to enable the mobile robot to navigate autonomously in crowded places. While moving, the robot must detect and take into account the human presence in its neighborhood, i.e. in order to avoid them, to ease their moves or to secure them. However, for an active interaction, the robot must also be able to sense their posture, attitude or gestures. With this intention, we set up a visual human motion capture system from cameras embedded on the robot. A 3D rough model of the human body is proposed, integrating bio-mechanical and anthropomorphic considerations. The goal is then to match this model with the images by exploiting various 2D visual cues (edges, color, movement) together with a 3D sparse reconstruction of the scene. In order to estimate the posture and the configuration of the 3D model, well-known particle filter techniques are applied. Evolutions are proposed to tackle the problem more efficiently and to satisfy the real-time constraints of our applicative context. We use a gradual approach by studying two different contexts. First, we focus on a ubiquist robotics context, which proposes two fixed ambiance cameras with different and complementary view points. Second, a mobile robotics context is set up, with stereo cameras embedded on the robot.This work has been done in the Robotics Action Perception (RAP) group at LAAS-CNRS.