Retour au site du LAAS-CNRS

Laboratoire d’analyse et d’architecture des systèmes
Choisir la langue : FR | EN

37documents trouvés

16536
05/12/2016

Co-design Hardware/Software of Real time Vision System on FPGA for Obstacle Detection

A.ALHAMWI

RAP

Doctorat : Université de Toulouse III - Paul Sabatier, Décembre 2016, 163p., Président: M.DEVY, Rapporteurs: H.SNOUSSI, J.DUBOIS, Examinateurs: J.F.NEZAN, B.VANDEPORTAELE, Directeurs de thèse: J.PIAT , N° 16536

Lien : https://hal.laas.fr/tel-01483746

Diffusable

Plus d'informations

Résumé

La Détection, localisation d’obstacles et la reconstruction de carte d’occupation 2D sont des fonctions de base pour un robot navigant dans un environnement intérieure lorsque l’intervention avec les objets se fait dans un environnement encombré. Les solutions fondées sur la vision artificielle et couramment utilisées comme SLAM ( Simultaneous Localization And Mapping) ou le flux optique ont tendance à être des calculs intensifs. Ces solutions nécessitent des ressources de calcul puissantes pour répondre à faible vitesse en temps réel aux contraintes. Nous présentons une architecture matérielle pour la détection, localisation d’obstacles et la reconstruction de cartes d’occupation 2D en temps réel. Le système proposé est réalisé en utilisant une architecture de vision sur FPGA (Field Programmable Gates Array) et des capteurs d’odométrie pour la détection, localisation des obstacles et la cartographie. De la fusion de ces deux sources d’information complémentaires résulte un modèle amélioré de l’environnement autour des robots. L’architecture proposé est un système à faible coût avec un temps de calcul réduit, un débit d’images élevé, et une faible consommation d’énergie.

Abstract

Obstacle detection, localization and occupancy map reconstruction are essential abilities for a mobile robot to navigate in an environment. Solutions based on passive monocular vision such as Simultaneous Localization And Mapping (SLAM) or Optical Flow (OF) require intensive computation. Systems based on these methods often rely on over-sized computation resources to meet real-time constraints. Inverse Perspective Mapping allows for obstacles detection at a low computational cost under the hypothesis of a flat ground observed during motion. It is thus possible to build an occupancy grid map by integrating obstacle detection over the course of the sensor. In this work we propose hardware/software system for obstacle detection, localization and 2D occupancy map reconstruction in real-time. The proposed system uses a FPGA-based design for vision and proprioceptive sensors for localization. Fusing this information allows for the construction of a simple environment model of the sensor surrounding. The resulting architecture is a low-cost, low-latency, high-throughput and low-power system.

Mots-Clés / Keywords
Implementation FPGA; Détection d’obstacles; Traitement d’images en temps réel; Accéleration hardware; Vision robotique;

139073
16504
02/12/2016

Co-design of architectures and algorithms for mobile robot localization and model-based detection of obstacles

D.TORTEI

RAP

Doctorat : Université de Toulouse III - Paul Sabatier, 2 Décembre 2016, 137p., Président: B.BOROVAC, Rapporteurs: M.AKIL, Examinateurs: J.PIAT, D.OBRADOVIC, Directeurs de thèse: M.DEVY, M.RAKOVIC , N° 16504

Lien : https://hal.laas.fr/tel-01477662

Diffusable

Plus d'informations

Résumé

Un véhicule autonome ou un robot mobile est équipé d’un système de navigation qui doit comporter plusieurs briques fonctionnelles pour traiter de perception, localisation, planification de trajectoires et locomotion. Dès que ce robot ou ce véhicule se déplace dans un environnement humain dense, il exécute en boucle et en temps réel plusieurs fonctions pour envoyer des consignes aux moteurs, pour calculer sa position vis-à-vis d’un repère de référence connu, et pour détecter de potentiels obstacles sur sa trajectoire; du fait de la richesse sémantique des images et du faible coût des caméras, ces fonctions exploitent souvent la vision. Les systèmes embarqués sur ces machines doivent alors intégrer des cartes assez puissantes pour traiter des données visuelles en temps réel. Par ailleurs, les contraintes d’autonomie de ces plateformes imposent de très faibles consommations énergétiques. Cette thèse proposent des architectures de type SOPC (System on Programmable Chip) con¸cues par une méthodologie de co-design matériel/logiciel pour exécuter de manière efficace les fonctions de localisation et de détection des obstacles à partir de la vision. Les résultats obtenus sont équivalents ou meilleurs que l’état de l’art, concernant la gestion de la carte locale d’amers pour l’odométrie-visuelle par une approche EKF-SLAM, et le rapport vitesse d’exécution sur précision pour ce qui est de la détection d’obstacles par identification dans les images d’objets (piétons, voitures...) sur la base de modèles appris au préalable.

Abstract

An autonomous mobile platform is endowed with a navigational system which must contain multiple functional bricks: perception, localization, path planning and motion control. As soon as such a robot or vehicle moves in a crowded environment, it continously loops several tasks in real time: sending reference values to motors’ actuators, calculating its position in respect to a known reference frame and detection of potential obstacles on its path. Thanks to semantic richness provided by images and to low cost of visual sensors, these tasks often exploit visual cues. Other embedded systems running on these mobile platforms thus demand for an additional integration of high-speed embeddable processing systems capable of treating abundant visual sensorial input in real-time. Moreover, constraints influencing the autonomy of the mobile platform impose low power consumption. This thesis proposes SOPC (System on a Programmable Chip) architectures for efficient embedding of vison-based localization and obstacle detection tasks in a navigational pipeline by making use of the software/hardware co-design methodology. The obtained results are equivalent or better in comparison to state-of-the-art for both EKF-SLAM based visual odometry: regarding the local map size management containing seven-dimensional landmarks and model-based detection-by-identification obstacle detection: algorithmic precision over execution speed metric.

138833
16095
25/01/2016

Segmentation automatique d’images sur des critères géométriques, application à l’inspection visuelle de produits agroalimentaires

P.DUBOSCLARD

RAP

Doctorat : Université de Toulouse III - Paul Sabatier, 25 Janvier 2016, 149p., Président: F.LERASLE, Rapporteurs: X.DESCOMBES, T.FOURNEL, Examinateurs: D.FOFI, Directeurs de thèse: M.DEVY, A.HERBULOT , N° 16095

Non diffusable

Plus d'informations

Résumé

À l’échelle mondiale, la récolte de céréales atteint plusieurs milliards de tonnes chaque année. Les producteurs céréaliers échangent leurs récoltes selon un prix déterminé par la qualité de leur production. Cette évaluation, appelée agréage, est réalisée pour chaque lot sur un échantillon jugé représentatif. La difficulté au cours de cette évaluation est de parvenir à parfaitement caractériser l’échantillon. Il faut pour cela qualifier chacun de ses éléments, en d’autres termes, il est nécessaire d’évaluer chaque grain de céréale de manière individuelle. Cette opération est historiquement réalisée par un opérateur qui isole chaque grain manuellement pour l’inspecter et l’évaluer. Ce procédé est exposé à différents problèmes : d’une part les résultats obtenus par un opérateur ne sont pas parfaitement répétables : son état de fatigue visuelle peut influencer son appréciation; d’autre part l’évaluation dépend de l’opérateur : elle n’est pas reproductible, les résultats peuvent varier d’un opérateur à l’autre. Cette thèse a donc pour but de mettre au point un système capable de réaliser cette inspection visuelle. Le système d’acquisition est présenté dans un premier temps. Cette enceinte contient les dispositifs d’éclairage et d’acquisition d’images. Différents outils ont été mis en œuvre pour s’assurer de la justesse et de la stabilité des acquisitions. Une méthode d’apprentissage de modèles de forme est ensuite présentée : elle a pour but de définir et de modéliser le type de forme des grains de l’application considérée (blé, riz, orge). Cette étape est réalisée sur une image d’objets isolés. Deux méthodes de détection sont ensuite présentées : une approche déterministe et une approche probabiliste. Ces deux méthodes, mises au point pour segmenter les objets d’une image, utilisent des outils communs bien qu’elles soient conçues différemment. Les résultats obtenus et présentés dans cette thèse démontrent la capacité du système automatique à se positionner comme une solution fiable à la problématique d’inspection visuelle de grains de céréales

Abstract

In agriculture, the global grain harvest reached several billion tons each year. Cereal producers exchange their crops at a price determined by the quality of their production. This assessment, called grading, is performed for each set on a representative sample. The difficulty of this assessment is to fully characterize the sample. To do so, it is necessary to qualify each of its elements. In other words, it is necessary to evaluate each individual cereal grain. Historically, this has been performed manually by an operator who isolates each evaluated grain. This method is exposed to various problems : firstly, results obtained by an operator are not perfectly repeatable. For example, eyestrain can influence the assessment. On the other hand the evaluation depends on the operator : it is not reproducible. The results can vary from one operator to another. The aim of this thesis is to develop a system that can handle this visual inspection. In a first time, the acquisition system is introduced. Image acquisition and lighting parts are placed in a cabin. Several methods have been introduced to manage accuracy and stability of the acquisitions. Then, a shape model learning is detailed : this step, based on an image with manually separated objects, defines and modelizes shape of the considered cereal grains (wheat, rice, barley). Two detection approaches are then introduced : a deterministic method and a probabilistic one. Both are based on the same tools to process the objects segmentation of an image, but they deal with the question in a different way. The results provided by the system and presented in this thesis emphasize the ability of this automatic system to process the visual inspection of food products.

Mots-Clés / Keywords
Inspection; Méthodes probabilistes; Segmentation; Traitement d'image;

136532
15651
17/12/2015

Asservissement visuel coordonné de deux bras manipulateurs

R.FLEURMOND

RAP

Doctorat : Université de Toulouse III - Paul Sabatier, 17 Décembre 2015, 135p., Président: P.DANES, Rapporteurs: Y.MEZOUAR, P.FRAISSE, Examinateurs: N.A.AREXOLALEIBA, Directeurs de thèse: V.CADENAT, D.SIDOBRE , N° 15651

Lien : https://tel.archives-ouvertes.fr/tel-01280180

Diffusable

Plus d'informations

Abstract

We address the problem of coordinating a dual arm robot using one or several cameras. After proposing an overview of the control techniques dedicated to this problem, we develop a formalism allowing to coordinate the motions of several arms thanks to multicameras image based visual servoing. Our approach allows to benefit from the natural redundancy provided by the robotic system to take into account useful constraints such as joint limits and occlusions avoidance. We propose a strategy to deal with these tasks simultaneously. Finally, to make our control more robust with respect to image losses, we reconstruct the structure of the manipulated objects and the corresponding visual features. To validate our approach, we use the formalism to make the dual arm PR2 robot recap a pen. Simulations and experimental results are provided.

Résumé

Nous nous intéressons ici au problème de la coordination de plusieurs bras manipulateurs au moyen de la vision. Après avoir étudié les approches de commande dédiées à ce problème, notre première contribution a consisté à établir un formalisme basé sur l’asservissement visuel 2D. Ce formalisme permet de bénéficier des images fournies par une ou plusieurs caméras, embarquées ou déportées, pour coordonner les mouvements d’un système robotique multi-bras. Il permet de plus d’exploiter la redondance de ce type de système pour prendre en compte des contraintes supplémentaires. Nous avons ainsi développé une stratégie de commande pour réaliser une tâche de manipulation coordonnée tout en évitant les butées articulaires et la perte des indices visuels. Afin d’aller plus loin et de tolérer les occultations, nous avons proposé des approches permettant de reconstruire la structure des objets manipulés et donc les indices visuels qui les caractérisent. Enfin, nous avons validé nos travaux en simulation et expérimentalement sur le robot PR2.

Mots-Clés / Keywords
Asservissement visuel; Coordination; Coopération; Bras manipulateurs; Robot à deux bras; Redondance; Occultation; Structure from motion;

136154
15678
03/12/2015

Perception multimodale de l’homme pour l’interaction Homme-Robot

C.MOLLARET

RAP

Doctorat : Université de Toulouse III - Paul Sabatier, 3 Décembre 2015, 129p., Président: L.BESACIER, Rapporteurs: M.CHETOUANI, E.COLLE, Examinateurs: J.PINQUIER, Directeurs de thèse: F.LERASLE, I.FERRANE , N° 15678

Lien : https://tel.archives-ouvertes.fr/tel-01291838

Diffusable

Plus d'informations

Résumé

Cette thèse porte sur la perception multimodale de l'homme pour l'Interaction Homme-Robot (IHR). Elle a été financée par le projet ANR Contint RIDDLE (2012 - 2015). Ce projet est centré sur le développement d'un robot d'assistance pour les personnes âgées atteintes de troubles cognitifs légers. Celui-ci a pour but de répondre à un besoin grandissant d'aide à domicile envers les personnes âgées vivant seules. En effet, la population vieillissant de plus en plus, on estime qu'environ 33% des français auront plus de 60 ans en 2060. L'enjeu est donc de programmer un robot interactif (via ses capacités perceptuelles) capable d'apprendre la relation entre l'usager et un sousensemble d'objets du quotidien de ce dernier, soit des objets pertinents, présents ou possiblement égarés dans l'espace partagé du robot et de l'usager. Dans ce cadre, il reste de nombreux verrous à lever, notamment en termes de : (i) perception conjointe de l'homme et de son environnement, (ii) d'intégration sur un système robotisé, (iii) de validation par des scénarii mettant en jeu le robot et une personne âgée en interaction avec quelques objets usuels. La finalité du projet est de voir le robot répondre aux interrogations relatives à une dizaine d'objets courants (définis par une étude préliminaire sur une population qui se plaint de troubles cognitifs) par des actions appropriées. Par exemple, le robot signalera l'emplacement d'un objet en se déplaçant vers lui, en le saisissant ou en donnant des indications orales quant à sa position si l'objet n'est pas atteignable. Le projet RIDDLE est multipartenaire : il regroupe la société Magellium, le Gérontopôle de Toulouse, l'équipe MINC du LAAS-CNRS et l'entreprise Aldebaran Robotics dont le robot doit servir de plateforme pour les démonstrations finales. Cette thèse a été co-encadrée par Frédéric Lerasle et Isabelle Ferran é respectivement enseignants-chercheurs dans les équipes RAP du LAAS-CNRS et SAMoVA de l'IRIT-UPS. Lors de ce projet, nous avons, en partenariat avec le gérontopôle, défini un scénario robotique regroupant trois phases principales. Une phase de monitoring où le robot se trouve loin de l'utilisateur et l'observe de sa position, en attente d'une demande d'interaction, une phase d'interaction proximale où le robot se trouve proche de l'utilisateur et interagit avec lui, et enfin la transition qui permet au robot de passer d'une phase à l'autre. Ce scénario est donc construit de manière à créer un robot d'interaction proactif mais non-intrusif. Le caractère non-intrusif est matérialisé par la phase de monitoring. La proactivité est, quant à elle, matérialisée par la création d'un détecteur d'intentionnalit é permettant au robot de comprendre de manière non-verbale la volonté de l'utilisateur de communiquer avec lui. Les contributions scientifiques de cette thèse recoupent divers aspects du projet : le scénario robotique, le détecteur d'intentionnalité, une technique de filtrage par essaim de particules, et enfin une technique bayésienne d'amélioration du taux d'erreur de mot à partir d'informations de distance. Cette thèse est divisée en quatre chapitres. Le premier traite du détecteur d'intentionnalité, le deuxième de la technique de filtrage développée, le troisième de la phase d'interaction proximale et des techniques employées, et enfin le dernier chapitre est centré sur les implémentations robotiques.

136342
15681
12/10/2015

Estimation de la posture humaine par capteur RGB-D

L.MARTI

RAP

Doctorat : Université de Toulouse III - Paul Sabatier, 12 Octobre 2015, 105p., Présidente: A.CAPLIER, Rapporteurs: J.C.NOYER, S.BOVERIE, Examinateurs: L.ORIAT, Directeurs de thèse: F.LERASLE, A.MONIN , N° 15681

Lien : https://hal.laas.fr/tel-01393419

Diffusable

Plus d'informations

Abstract

In a world where the population is increasingly aging, elderly people falling is a public health issue. The use of technology is a major development axis for fall management. We want to design a complete system for detection and estimation of falls. The target market for this system is medicalized retirement homes and individual homes. We want to improve the medical care of people after a fall in order to reduce its consequences. A solution based on an ambient sensor seems to be the most adapted solution. Recent developments in RGB-D (Color+Depth) sensing are a great asset thanks to their relatively low cost, wide availability and good performances. The first part of the thesis deals with the problem of segmenting people from the surrounding scene in our images. We present an algorithm that determines the silhouettes of each person in the room in which the sensor is installed, thanks to simultaneous use of color and depth. The algorithm is robust to the change of configuration of the room and especially to moving furniture. We use special consideration of depth to reach a performance level sufficient for an industrial application. The second part of the thesis deals with the estimation of the human posture. Once the silhouettes have been segmented with the algorithm described in the first part, we want to get an estimation of every articulation of the person. We build on existing algorithms that use machine learning and in particular Random Forest by investigating new ideas to improve performances. We found optimal values for some parameters that were not previously investigated. We present a new feature to be computed on depth images. Finally we evaluate the impact of balancing the training database in our context. The algorithm provides a set of predictions for the position of every articulation. In the third part, we focus on spatio-temporal filtering of the postures. We examine different approaches and in particular we deal with the issue of left/right ambiguity that arises in the algorithm presented in the previous part. The approaches are based on Bayesian filtering.

Résumé

Dans le contexte du vieillissement de la population, le problème de la chute est un problème de santé publique. L’utilisation de la technologie est un axe important pour la prise en compte des enjeux liés à la chute. Nous voulons développer un système complet de détection et d’estimation de la chute à destination des maison de retraites et des particuliers dans un but d’amélioration de la prise en charge médicale et de limitation des conséquences de la chute. La solution de détection à l’aide d’un capteur ambiant déporté nous a semblé être la solution la plus adaptée. Les capteurs RGB-D (couleurs + profondeur) développés récemment sont un atout pour cela car ils sont peu chers, très commun et performants. La première partie de la thèse traite du problème de segmentation de la silhouette de la personne dans la scène observée. Nous présentons un algorithme qui fourni, grâce à une utilisation conjointe des images de couleurs et de profondeur, les silhouettes des différents personnes dans la pièce dans laquelle est situé le capteur. L’algorithme est robuste au changement de configuration de la pièce et notamment au déplacement d’objets. L’utilisation de caractéristiques propres à la profondeur nous permet d’atteindre des niveaux de performances suffisant pour une utilisation industrielle. Dans la seconde partie de la thèse nous abordons le problème de l’estimation de la posture humaine. Une fois les silhouettes segmentées grâce à l’algorithme de la première partie, nous voulons avoir les positions des articulations de la personne. Nous incrémentons sur les algorithmes déjà existants utilisant l’apprentissage et notamment les algorithmes des randoms forests en investiguant de nouvelles idées pour augmenter les performances. Nous déterminons les valeurs optimales de certains paramètres qui ne sont pas explorés dans les travaux précedents. Nous présentons un nouveau type de caractéristique à calculer sur les images de profondeur. Nous examinons enfin l’impact de l’équilibrage de la collection d’apprentissage dans notre contexte. L’algorithme fourni alors un ensemble de prédiction pour chaque articulation. Dans la troisième partie, nous traitons le problème du filtrage spatio-temporel des poses. Nous présentons différentes approches et nous intéressons à l’ambiguïté droite/gauche des membres et cherchons à traiter ce problème. Les approches utilisées se fonde sur le filtrage bayesien.

136378
15650
25/09/2015

Capture de mouvements humains par capteurs RGB-D

J.MASSE

RAP

Doctorat : Université de Toulouse III - Paul Sabatier, 25 Septembre 2015, 115p., Président: M.DAOUDI, Rapporteurs: J.BENOIS-PINEAU, S.TREUILLET, Examinateurs: G.OLLER, Directeurs de thèse: F.LERASLE, M.DEVY , N° 15650

Lien : https://tel.archives-ouvertes.fr/tel-01280163

Diffusable

Plus d'informations

Abstract

Simultaneous apparition of depth and color sensors and super-realtime skeleton detection algorithms led to a surge of new research in Human Motion Capture. This feature is a key part of Human-Machine Interaction. But the applicative context of those new technologies is voluntary, fronto-parallel interaction with the sensor, which allowed the designers certain approximations and requires a specific sensor placement. In this thesis, we present a multi-sensor approach, designed to improve robustness and accuracy of a human's joints positionning, and based on a trajectory smoothing process by temporal integration, and filtering of the skeletons detected in each sensor. The approach has been tested on a new specially constituted database, with a specifically adapted calibration methodology. We also began extending the approach to context-based improvements, with object perception being proposed.

Résumé

L'arrivée simultanée de capteurs de profondeur et couleur, et d'algorithmes de détection de squelettes super-temps-réel a conduit à un regain de la recherche sur la capture de mouvements humains. Cette fonctionnalité constitue un point clé de la communication Homme-Machine. Mais le contexte d'application de ces dernières avancées est l'interaction volontaire et fronto-parallèle, ce qui permet certaines approximations et requiert un positionnement spécifique des capteurs. Dans cette thèse, nous présentons une approche multi-capteurs, conçue pour améliorer la robustesse et la précision du positionnement des articulations de l'homme, et fondée sur un processus de lissage trajectoriel par intégration temporelle, et le filtrage, des squelettes détectés par chaque capteur. L'approche est testée sur une base de données nouvelle acquise spécifiquement, avec une méthodologie d'étalonnage adaptée spécialement. Un début d'extension à la perception jointe avec du contexte, ici des objets, est proposée.

Mots-Clés / Keywords
Intégration temporelle; Perception multi-sensorielle; Robotique industrielle;

136152
15730
18/09/2015

Learning objects model and context for recognition and localisation

G.MANFREDI

RAP

Doctorat : Université de Toulouse III - Paul Sabatier, 18 Septembre 2015, 163p., Président: F.LERASLE, Rapporteurs: H.J.ARAUJO, M.BJORKMAN, Examinateurs: E.MARCHAND, Directeurs de thèse: M.DEVY, D.SIDOBRE , N° 15730

Diffusable

Plus d'informations

Résumé

Pour interagir avec le monde, un robot doit connaître, reconnaître et localiser dans l'espace les objets qui l'entourent. Pour connaître un objet, le robot doit le modéliser. Les techniques actuelles sont lourdes, complexes pour l'utilisateur et requièrent la présence de l'objet. Concernant la reconnaissance, de nombreuses techniques existent, mais plus le nombre d'objets considéré augmente, moins elles sont ables. Enn, la localisation repose sur les deux étapes précédentes et échouera si elles manquent de précision. La première partie de cette thèse montre que des modèles d'objets légers sont susants et qu'ils peuvent être modélisés automatiquement depuis Internet. La deuxième partie, démontre que l'utilisation du contexte (lieu, heure, etc.) permet d'améliorer la reconnaissance. Ce travaille se conclue en mettant l'accent sur l'avantage des modèles simples et en insistant sur l'importance des informations contextuelles.

Abstract

This Thesis addresses the modeling, recognition, localisation and use of context for objects manipulation by a robot. We start by presenting the modeling process components: the real system, the sensors' data, the properties to reproduce and the model. By specifying them, one denes a modeling process adapted to the problem at hand, namely object manipulation by a robot. This analysis leads us to the adoption of local textured descriptors for object modeling. Modeling with local textured descriptors is not a new concept, it is the subject of many Structure from Motion (SfM) or Simultaneous Localisation and Mapping (SLAM) works. Existing methods include bundler, roboearth modeler and 123DCatch. Still, no methods has gained widespread adoption. By implementing a similar approach, we show that their are hard to use even for expert users and produce highly complex models. Such complex techniques are necessary to guaranty the robustness of the model to view point change. There are two ways to handle the problem: the multiple views paradigm and the robust features paradigm. The multiple views paradigm advocate in favour of using a large number of views of the object. The robust feature paradigm rely on robust features able to resist large view point changes. We present a set of experiments to provide an insight into the right balance between both. By varying the number of views and using dierent features we show that small and fast models can provide robustness to view point changes up to bounded blind spots which can be handled by robotic means. We propose four dierent methods to build simple models from images only, with as few a priori information as possible. The rst one applies to piecewise planar objects and rely on homographies for localisation. The second approach is applicable to objects with simple geometry but requires many measures on the object. The third method requires the use of a calibrated 3D sensor but no additional information. The fourth technique doesn't need a priori information at all. We use this last method to model object from images automatically retrieved from a grocery store website. Even using light models, real situations ask for numerous object models to be stored and processed. This poses the problems of complexity, processing multiple models quickly, and ambiguity, distinguishing similar objects. We propose to solve both problems by using contextual information. Contextual information is any information helping the recognition which is not directly provided by sensors. We focus on two contextual cues: the place and the surrounding objects. Some objects are mainly found in some particular places. By knowing the current place, one can restrict the number of possible identities for a given object. We propose a method to autonomously explore a previously labeled environment and establish a correspondence between objects and places. Then this information can be used in a cascade combining simple visual descriptors and context. This experiment show that, for some objects, recognition can be achieved with as few as two simple features and the location as context. This Thesis stresses the good match between robotics, context and objects recognition.

Mots-Clés / Keywords
Modelling; Recognition; Localisation; Context; Objects co-occurrence; Markov logic network; Structure from motion; SLAM; Texture descriptors; Multiple view geometry; Modélisation; Reconnaissance; Contexte; Cooccurrence d'objets; Reseau logiques de markov; Structure par le mouvement; Descripteurs de texture; Geometrie multivue;

137993
14697
07/11/2014

Détection temps réel de postures humaines par fusion d’images 3D

W.FILALI

RAP

Doctorat : Université de Toulouse III - Paul Sabatier, 7 Novembre 2014, 141p., Président: M.DEVY, Rapporteurs: P.CHECCHIN, A.IZAGUIRRE, Examinateurs: M.AKIM, Directeurs de thèse: F.LERASLE, J.L.BOIZARD , N° 14697

Lien : https://hal.archives-ouvertes.fr/tel-01137267

Diffusable

Plus d'informations

Résumé

Nous présentons dans ce manuscrit le contenu de la thèse, centrée sur un projet de recherche en vision. Nous présentons l’étude de l’état de l’art de la reconstruction de posture et leurs contextes d’application associés. Nous partons des systèmes embarqués et caméras intelligentes et nous focalisons sur la vision par ordinateur et son utilisation pour la reconnaissance d’activités humaines. Ensuite, nous nous intéressons à la reconstruction de posture, car cela représente l’élément-clé du processus de reconnaissance. Ces travaux de thèse se sont appuyés sur les dernières avancées technologiques typiquement l’avènement du capteur RGB-D type Kinect. Nous avons développé un algorithme de fusion bas niveau de multiples capteurs de profondeur. Les challenges sous-jacents sont liés à plusieurs phénomènes : (1) aux occultations dues à l’utilisation d’un capteur unique, ensuite, (2) à la complexité combinatoire en fonction du nombre de postures à apprendre, et (3) aux contraintes imposées à l’intégration du système. Nous avons abordé chacun de ces points. L’utilisation de plusieurs capteurs permet par évidence de s’affranchir de la majorité des problèmes d’auto-occultation et offre de meilleures garanties de robustesse et complétude sur la scène observée. Nous avons donc élaboré une technique de fusion bas niveau qui représente a priori la contribution principale de la thèse. Nous avons adapté une technique d’apprentissage fondée sur des forêts de décision. Notre algorithme s’appuie sur notre propre base d’apprentissage élaborée à partir de notre plate-forme multi-kinect couplée à un système commercial de capture de mouvement. Les deux principales spécificités sont la fusion de données sensorielles et l’apprentissage supervisé. Plus précisément, la fusion des données est décrite par les étapes de capture, segmentation et voxellisation qui génèrent une reconstruction 3D de l’espace occupé. L’apprentissage s’appuie sur le formalisme des forêts de décision en utilisant un descripteur approprié. Des expérimentations et le réglage (« tuning ») des paramètres de l’apprentissage ont également été réalisés. Une comparaison avec l’état de l’art a été menée de façon qualitative et quantitative avec des résultats concluants au niveau de la précision des articulations reconstruites. L’étude algorithmique a été approfondie sur un environnement PC et a permis de cibler une sous-partie des modalités à intégrer dans notre système. L’intégration matérielle a consisté en une étude et comparaison des différentes approches disponibles. Les FPGA sont une plate-forme permettant de répondre aux critères de performance et d’ « embarquabilité », car ils délivrent une puissance permettant de réduire le coût CPU. Ceci nous a permis d’apporter une contribution qui consiste à hiérarchiser la conception et développer une couche de « modules » intermédiaires. Une comparaison a été menée entre une fonctionnalité de détection d’arrière-plan, intégrée sur PC, GPU et FPGA puis son implémentation sur FPGA a été détaillée. Le document se termine par la conclusion et les perspectives qui font l’objet de futures investigations et prospectives professionnelles.

Abstract

This thesis manuscript presents a reflection of the different research investigations, rooted in computer vision, which were carried out during the life time of this PhD research. It presents a comprehensive study of the state-of-the-art in human posture reconstruction, its contexts, and associated applications. The underlying research focuses on utilization of computer vision techniques for human activity recognition based on embedded system technologies and intelligent camera systems. It also focuses on human posture reconstruction as it plays a key role in subsequent activity recognition. In this work, we have relied on the latest technological advances in sensor technology, specifically on the advent of Kinect, an RGB-D sensor from Microsoft, to realize a low-level sensor fusion algorithm to fuse the outputs of multiple depth sensors for human posture reconstruction. In this endeavor, the different challenges encountered are: (1) occlusions when using a single sensor; (2) the combinatorial complexity of learning a high dimensional space corresponding to human postures; and finally, (3) embedded systems constraints. The proposed system addresses and consequently resolves each of these challenges. The fusion of multiple depth sensors gives better result than individual sensors as the fusion alleviates the majority of occlusions by resolving many incoherencies thus by guaranteeing improved robustness and completeness on the observed scene. In this manuscript, we have elaborated the low-level fusion strategy which makes up the main contribution of this thesis. We have adopted a learning technique based on decision forests. Our algorithm is applied on our own learning dataset acquired with our multi-platform kinect coupled to a commercial motion capture system. The two main principal features are sensor data fusion and supervised learning. Specifically, the data fusion technique is described by acquisition, segmentation, and voxelization which generates a 3D reconstruction of the occupied space. The supervised learning is based on decision forests and uses appropriate descriptors extracted from the reconstructed data. Various experiments including specific parameter learning (tuning) runs have been realized. Qualitative and quantitative comparative human articulation reconstruction precision evaluations against the state-of-the-art strategies have also been carried out. The different algorithms have been implemented on a personal computer environment which helped to analyze the essential parts that needs hardware embedded integration. The hardware integration consisted of studying and comparing multiple approaches. FPGA is a platform that meets both the performance and embeddability criteria as it provides resources that reduce CPU cost. This allowed us to make a contribution which constitutes a hierarchically prioritized design via a layer of intermediary modules. Comparative studies have also been done using background subtraction implementation as a benchmark integrated on PC, GPU, and FPGA (the FPGA implementation has been presented in detail). Finally, the manuscript terminates with concluding remarks and future research project and investigation prospects.

Mots-Clés / Keywords
Caméra intelligente intégrée; Détection de posture; Détection des parties du corps; Forets de décisions; Traitement d'images multi vues;

134315
14436
11/03/2014

Cooperative people detection and tracking strategies with a mobile robot and wall mounted cameras

A.A.MEKONNEN

RAP

Doctorat : Université de Toulouse III - Paul Sabatier, 11 Mars 2014, 209p., Président: M.DEVY, Rapporteurs: E.MARCHAND, T.CHATEAU, Examinateurs: J.M.ODOBEZ, Directeurs de thèse: A.HERBULOT, F.LERASLE , N° 14436

Lien : http://tel.archives-ouvertes.fr/tel-01068355

Diffusable

Plus d'informations

Résumé

Actuellement, il y a une demande croissante pour le déploiement de robots mobile dans des lieux publics. Pour alimenter cette demande, plusieurs chercheurs ont déployé des systèmes robotiques de prototypes dans des lieux publics comme les hôpitaux, les supermarchés, les musées, et les environnements de bureau. Une principale préoccupation qui ne doit pas être négligé, comme des robots sortent de leur milieu industriel isolé et commencent à interagir avec les humains dans un espace de travail partagé, est une interaction sécuritaire. Pour un robot mobile à avoir un comportement interactif sécuritaire et acceptable - il a besoin de connaître la présence, la localisation et les mouvements de population à mieux comprendre et anticiper leurs intentions et leurs actions. Cette thèse vise à apporter une contribution dans ce sens en mettant l’accent sur les modalités de perception pour détecter et suivre les personnes à proximité d’un robot mobile. Comme une première contribution, cette thèse présente un système automatisé de détection des personnes visuel optimisé qui prend explicitement la demande de calcul prévue sur le robot en considération. Différentes expériences comparatives sont menées pour mettre clairement en évidence les améliorations de ce détecteur apporte à la table, y compris ses effets sur la réactivité du robot lors de missions en ligne. Dans un deuxiè contribution, la thèse propose et valide un cadre de coopération pour fusionner des informations depuis des caméras ambiant affixé au mur et de capteurs montés sur le robot mobile afin de mieux suivre les personnes dans le voisinage. La même structure est également validée par des données de fusion à partir des différents capteurs sur le robot mobile au cours de l’absence de perception externe. Enfin, nous démontrons les améliorations apportées par les modalités perceptives développés en les déployant sur notre plate-forme robotique et illustrant la capacité du robot à percevoir les gens dans les lieux publics supposés et respecter leur espace personnel pendant la navigation.

Abstract

This thesis deals with detection and tracking of people in a surveilled public place. It proposes to include a mobile robot in classical surveillance systems that are based on environment fixed sensors. The mobile robot brings about two important benefits: (1) it acts as a mobile sensor with perception capabilities, and (2) it can be used as means of action for service provision. In this context, as a first contribution, it presents an optimized visual people detector based on Binary Integer Programming that explicitly takes the computational demand stipulated into consideration. A set of homogeneous and heterogeneous pool of features are investigated under this framework, thoroughly tested and compared with the state-of-the-art detectors. The experimental results clearly highlight the improvements the different detectors learned with this framework bring to the table including its effect on the robot’s reactivity during on-line missions. As a second contribution, the thesis proposes and validates a cooperative framework to fuse information from wall mounted cameras and sensors on the mobile robot to better track people in the vicinity. Finally, we demonstrate the improvements brought by the developed perceptual modalities by deploying them on our robotic platform and illustrating the robot’s ability to perceive people in supposed public areas and respect their personal space during navigation.

Mots-Clés / Keywords
Feature selection; Multi-person tracking; People detection; Sensor fusion;

133254
Les informations recueillies font l’objet d’un traitement informatique destiné à des statistiques d'utilisation du formulaire de recherche dans la base de données des publications scientifiques. Les destinataires des données sont : le service de documentation du LAAS.Conformément à la loi « informatique et libertés » du 6 janvier 1978 modifiée en 2004, vous bénéficiez d’un droit d’accès et de rectification aux informations qui vous concernent, que vous pouvez exercer en vous adressant à
Pour recevoir une copie des documents, contacter doc@laas.fr en mentionnant le n° de rapport LAAS et votre adresse postale. Signalez tout problème de dysfonctionnement à sysadmin@laas.fr. http://www.laas.fr/pulman/pulman-isens/web/app.php/