Retour au site du LAAS-CNRS

Laboratoire d’analyse et d’architecture des systèmes
Choisir la langue : FR | EN

44documents trouvés

19019
23/01/2019

Conception et Développement de Composants Logiciels et Matériels pour un Dispositif Ophtalmique

J.COMBIER

RAP

Doctorat : Université de Toulouse III - Paul Sabatier, 23 Janvier 2019, 223p., Président: F.BERRY, Rapporteurs: A.IZAGUIRRE ALTUNA, , Examinateurs: A.BOUCHIER, O.MOREL, Directeurs de thèse: P.DANES, B.VANDEPORTAELE , N° 19019

Non diffusable

Plus d'informations

Résumé

Les recherches menées au cours de cette thèse de Doctorat s’inscrivent dans les activités du laboratoire commun OPERA (OPtique EmbaRquée Active) impliquant ESSILOR-LUXOTTICA et le CNRS. L’objectif est de contribuer au développement des “lunettes du futur” intégrant des fonctions d’obscurcissement, de focalisation ou d’affichage qui s’adaptent en permanence à la scène et au regard de l’utilisateur. Ces nouveaux dispositifs devront être dotés de capacités de perception, de décision et d’action, et devront respecter des contraintes d’encombrement, de poids, de consommation énergétique et de temps de traitement. Ils présentent par conséquent des connexions évidentes avec la robotique. Dans ce contexte, les recherches ont consisté à investiguer la structure et la construction de tels systèmes afin d’identifier leurs enjeux et difficultés. Pour ce faire, la première tâche a été de mettre en place des émulateurs de divers types de lunettes actives, qui permettent de prototyper et d’évaluer efficacement diverses fonctions. Dans cette phase de prototypage et de test, ces émulateurs s’appuient naturellement sur une architecture logicielle modulaire typique de la robotique. La seconde partie de la thèse s’est focalisée sur le prototypage d’un composant clé des lunettes du futur, qui implique une contrainte supplémentaire de basse consommation : le système de suivi du regard, aussi appelé oculomètre. Le principe d’un assemblage de photodiodes et d’un traitement par réseau de neurones a été proposé. Un simulateur a été mis au point, ainsi qu’une étude de l’influence de l’agencement des photodiodes et de l’hyper-paramétrisation du réseau sur les performances de l’oculomètre.

146315
18420
04/12/2018

Modélisation 3D et suivi visuel pour caractériser le phénotype de variétés de tournesol

W.GELARD

RAP

Doctorat : 4 Décembre 2018, 153p., Président: F.BARET, Rapporteurs: D.ROUSSEAU, G.RABATEL, Examinateurs: M.DEVY, Directeurs de thèse: A.HERBULOT, P.DEBAEKE , N° 18420

Diffusable

Plus d'informations

Abstract

The constant increasing food and energy demand in the world associated to global warming and climate change issues, pushed the researchs in plant breeding to move towards the improvement of crops performance and development of a more sustainable agriculture. To meet these demands, the effort made by the researchers were focused on the development of high-throughput genotyping methods (i.e., the study of genome sequence of plants) and allowed the biologists to indentified the genotypes of a large amount of plants. Moreover, understanding the relationships that link the genotypes (DNA) to the phenotypes (visual characteristics) that evolve according environmental conditions like : light, water, drought, heat, etc. has become a main issue in agricultural research. While the genotyping methods were rapidly improved and automatized during the last decade, the phenotyping methods remain manual, sometimes destructive and non-replicable. The usual phenotyping methods consist to measure certain visual parameters of a plant such as : main stem heigh, number of leaves, leaf initiation angle or leaf area, but more importantly, be able to follow these parameters along the plant growth. Consequently, the number of plants to harvest is very important and the measurements are extremely time-consuming. The emergence and reliability of new technologies in computer vision and robotic have led the researchers to take an interest in them and to seek how they can be used in plant science. The thesis is focused on the design, development and validation of a high-throughput phenotyping method design for sunflower plant with an eye to amplify phenotyping capacities by Agronomists and Geneticists (and later varieties evaluators and seed producers). The aim is to improve, modernize and automatize the current phenotyping methods as a way to help the plant scientists to collect a large amount of data. Motivated by the wish to perform high-throughput plant phenotyping, we propose a 3D approach to automatically extract visual characteristics of sunflower plants grown in pot. First, a 3D point cloud of a plant is acquired with classical SfM techniques. A segmentation step is then proceeded to retrieve the main stem and the leaves. With the intention of following the visual characteristics during the plant growth, especially, the leaf area expansion rate of each leaf, a labelling step relying on the botanical model of a plant is performed to affect them a unique label that will not change over time. Finally, the visual characteristics are extracted and results obtained on sunflower plants demonstrate the efficiency of our method and make it an encouraging step toward high-throughput plant phenotyping.

Résumé

L’augmentation constante de la demande alimentaire et énergétique dans le monde associée au réchauffement et changements climatiques ont poussé les recherches en agronomie vers le développement d’une agriculture plus durable et l’amélioration de la performance des cultures. Pour répondre à ces demandes, les chercheurs ont concentré leurs efforts sur le développement de méthodes de génotypage à haut débit (l’étude de la séquence génomique des plantes) et ont permis aux biologistes d’identifier les génotypes d’une grande quantité de plantes. De plus, comprendre les relations qui lient les génotypes (ADN) aux phénotypes (caractéristiques visuelles) qui évoluent en fonction des conditions d’irrigation, d’illumination ou de température est devenu un enjeu majeur dans la recherche agricole. Alors que les méthodes de génotypage ont été rapidement améliorées et automatisées au cours de la dernière décennie, les méthodes de phénotypage restent manuelles et parfois destructrices. Ces méthodes consistent à mesurer certains paramètres visuels d’une plante telle que : la hauteur de la tige principale, le nombre de feuilles, les angles d’initiation des feuilles ou la surface foliaire et plus important encore, à suivre ces paramètres tout au long de la croissance des plantes. Par conséquent, le nombre de plantes à cultiver est très important et les mesures prennent beaucoup de temps. Avec l’émergence des nouvelles technologies en vision par ordinateur et en robotique, les chercheurs en agronomie y ont vu un intérêt certain en vue d’automatiser la collecte et les mesures des données visuelles sur les plantes. La thèse porte sur la conception, le développement et la validation de traitements haut débit à exécuter automatiquement sur des images acquises sur des plantes de tournesol, en vue d’amplifier les capacités de phénotypage par les chercheurs en agronomie (et ultérieurement les évaluateurs de variétés et les semenciers). L’objectif est la mise au point d’un protocole d’acquisition d’images (en plante isolée) depuis un robot mobile (ou un système d’acquisition autonome) permettant d’améliorer, de moderniser et d’automatiser les méthodes de phénotypage actuelles afin d’aider les chercheurs en agronomie à collecter une grande quantité de données. Motivés par le souhait d’effectuer un phénotypage à haut débit, nous proposons une approche 3D pour extraire automatiquement les caractéristiques visuelles des plantes de tournesol cultivées en pot. Tout d’abord, un nuage de points 3D d’une plante est acquis avec des techniques classiques de SfM. Une étape de segmentation est ensuite effectuée pour extraire la tige principale et les feuilles. Dans le but de suivre les caractéristiques visuelles pendant la croissance des plantes, en particulier, suivre l’expansion foliaire de chaque feuille, une étape de labellisation basée sur le modèle botanique d’une plante est appliquée pour leur affecter une étiquette unique qui ne changera pas avec le temps. Enfin, les caractéristiques visuelles sont extraites et les résultats obtenus sur les plantes de tournesol démontrent l’efficacité de notre méthode et en font une étape encourageante vers le phénotypage haut débit.

Mots-Clés / Keywords
Phénotypage 3D; Tournesols; Reconstruction et Segmentation 3D; 3D Phenotyping; Sunflower plant; 3D Reconstruction and Segmentation;

145595
17661
20/12/2017

Apprentissage en ligne de signatures audiovisuelles pour la reconnaissance et le suivi de personnes au sein d’un réseau de capteurs ambiants

F.DECROIX

RAP

Doctorat : Université de Toulouse III - Paul Sabatier, 20 Décembre 2017, 123p., Président: S.MIGUET, Rapporteurs: P.LAMBERT, M.VACHER, Examinateurs: I.FERRANE, Directeurs de thèse: F.LERASLE, J.PINQUIER , N° 17661

Lien : https://hal.laas.fr/tel-01946899

Diffusable

Plus d'informations

Abstract

The neOCampus operation, started in 2013 by Paul Sabatier University in Toulouse, aims to create a connected, innovative, intelligent and sustainable campus, by exploiting the skills of 11 laboratories and several industrial partners. These multidisciplinary skills are combined in order to improve users (students, teachers, administrative sta ) daily comfort and to reduce the ecological footprint of the campus. The intelligence we want to bring to the campus of the future requires to provide to its buildings a perception of its intern activity. Indeed, optimizing the energy resources needs a characterization of the user's activities so that the building can automatically adapt itself to it. Human activity being open to multiple levels of interpretation, our work is focused on extracting people trajectories, its more elementary component. Characterizing users activities, in terms of movement, uses data extracted from cameras and microphones distributed in a room, forming a sparse network of heterogeneous sensors. From these data, we then seek to extract audiovisual signatures and rough localizations of the people transiting through this network of sensors. While protecting person privacy, signatures must be discriminative, to distinguish a person from another one, and compact, to optimize computational costs and enables the building to adapt itself. Having regard to these constraints, the characteristics we model are the speaker's timbre, and his appearance, in terms of colorimetric distribution. The scienti c contributions of this thesis are thus at the intersection of the elds of speech processing and computer vision, by introducing new methods of fusing audio and visual signatures of individuals. To achieve this fusion, new sound source location indices as well as an audiovisual adaptation of a multi-target tracking method were introduced, representing the main contributions of this work. The thesis is structured in 4 chapters, and the rst one presents the state of the art on visual reidenti cation of persons and speaker recognition. Acoustic and visual modalities are not correlated, so two signatures are separately computed, one for video and one for audio, using existing methods in the literature. After a rst chapter dedicated to the state of the art in re-identi cation and speaker recognition methods, the details of the computation of the signatures is explored in chapter 2. The fusion of the signatures is then dealt as a problem of matching between audio and video observations, whose corresponding detections are spatially coherent and compatible. Two novel association strategies are introduced in chapter 3. Spatio-temporal coherence of the bimodal observations is then discussed in chapter 4, in a context of multi-target tracking.

Résumé

L'opération neOCampus, initiée en 2013 par l'Université Paul Sabatier, a pour objectif de créer un campus connecté, innovant, intelligent et durable en exploitant les compétences de 11 laboratoires et de plusieurs partenaires industriels. Pluridisciplinaires, ces compétences sont croisées dans le but d'améliorer le confort au quotidien des usagers du campus (étudiants, corps enseignant, personnel administratif) et de diminuer son empreinte écologique. L'intelligence que nous souhaitons apporter au Campus du futur exige de fournir à ses bâtiments une perception de son activité interne. En effet, l'optimisation des ressources énergétiques nécessite une caract érisation des activités des usagers afin que le âatiment puisse s'y adapter automatiquement. L'activité humaine étant sujet à plusieurs niveaux d'interpétation nos travaux se focalisent sur l'extraction des déplacements des personnes présentes, sa composante la plus élémentaire. La caractérisation de l'activité des usagers, en termes de déplacements, exploite des données extraites de caméras et de microphones disséminés dans une piéce, ces derniers formant ainsi un réseau épars de capteurs hétérogènes. Nous cherchons alors à extraire de ces données une signature audiovisuelle et une localisation grossière des personnes transitant dans ce réseau de capteurs. Tout en préservant la vie privée de l'individu, la signature doit être discriminante, afin de distinguer les personnes entre elles, et compacte, afin d'optimiser les temps de traitement et permettre au bâtiment de s'auto-adapter. Eu égard à ces contraintes, les caractéristiques que nous modélisons sont le timbre de la voix du locuteur, et son apparence vestimentaire en termes de distribution colorimétrique. Les contributions scientifiques de ces travaux s'inscrivent ainsi au croisement des communaut és parole et vision, en introduisant des méthodes de fusion de signatures sonores et visuelles d'individus. Pour réaliser cette fusion, des nouveaux indices de localisation de source sonore ainsi qu'une adaptation audiovisuelle d'une méthode de suivi multi-cibles ont été introduits, représentant les contributions principales de ces travaux. Le mémoire est structuré en 4 chapitres. Le premier présente un état de l'art sur les problèmes de ré-identification visuelle de personnes et de reconnaissance de locuteurs. Les modalités sonores et visuelles ne présentant aucune corrélation, deux signatures, une vidéo et une audio sont générées séparément, à l'aide de méthodes préexistantes de la littérature. Le détail de la génération de ces signatures est l'objet du chapitre 2. La fusion de ces signatures est alors traitée comme un problème de mise en correspondance d'observations audio et vidéo, dont les détections correspondantes sont cohérentes et compatibles spatialement, et pour lesquelles deux nouvelles stratégies d'association sont introduites au chapitre 3. La cohérence spatio-temporelle des observations sonores et visuelles est ensuite traitée dans le chapitre 4, dans un contexte de suivi multi-cibles.

Mots-Clés / Keywords
Traitement automatique de la parole; Vision par ordinateur; Fusio audiovisuelle; Suivi multi-cible; Automatic speech processing; Computer vision; Multi-target tracking;

145175
17469
05/09/2017

Mouvement actif pour la localisation binaurale de sources sonores en robotique

G.BUSTAMANTE

RAP

Doctorat : Université de Toulouse III - Paul Sabatier, Septembre 2017, 145p., Président: Y.DEVILLE, Rapporteurs: L.GIRIN, E.VINCENT, Examinateurs: I.PETROVIC, A.RAAKE, R.HORAUD, Directeurs de thèse: P.DANES , N° 17469

Lien : https://hal.laas.fr/tel-01681138

Diffusable

Plus d'informations

Résumé

Ce travail s’inscrit dans le contexte de la localisation de source sonore depuis un capteur binaural (constitué de deux microphones placés sur un élément diffusant) doté de mobilité. Un schéma de localisation « active » en trois phases est considéré : (a) estimation de primitives spatiales par une analyse courtterme du flux audio ; (b) localisation audio-motrice par assimilation de ces données et combinaison avec les ordres moteurs du capteur au sein d’un schéma d’estimation stochastique ; (c) commande en boucle fermée du mouvement du capteur de façon à améliorer la qualité de la localisation. Les recherches portent sur la définition de stratégies de « mouvement actif » constituant la phase (c). Le problème est formulé comme la maximisation d’un critère d’information défini à partir des lois de filtrage de la position relative capteur-source sur un horizon temporel glissant dans le futur (plus exactement de son espérance sur les observations qui seront assimilées sur cet horizon conditionnellement aux observations passées). Cet horizon peut être constitué du prochain instant ou des N prochains instants, ce qui donne lieu à une stratégie « one-step-ahead » ou « N-step-ahead », respectivement. Une approximation de ce critère par utilisation de la transformée « unscented » et le calcul automatique du gradient de celle-ci par exploitation des nombres duaux, permettent la détermination de la commande (en boucle fermée sur l’audio donc) à appliquer au capteur. Les résultats ont été validés par des simulations réalistes, et, pour certains, par des expérimentations sur un ensemble tête-torse anthropomorphe doté de perception binaurale et de mobilité.

Mots-Clés / Keywords
Audition en robotique; Localisation binaurale active; Théorie de l’information;

141893
17362
10/07/2017

Vision based navigation in a dynamic environment

M.FUTTERLIEB

RAP

Doctorat : Université de Toulouse III - Paul Sabatier, Juillet 2017, 198p., Président: M.DEVY, Rapporteurs: E.M.MOUADDIB, R.ZAPATA, Examinateurs: A.DURAND PETITEVILLE, Directeurs de thèse: V.CADENAT, T.SENTENAC , N° 17362

Lien : https://hal.laas.fr/tel-01624233

Diffusable

Plus d'informations

Résumé

Cette thèse s'intéresse au problème de la navigation autonome au long cours de robots mobiles à roues dans des environnements dynamiques. Elle s'inscrit dans le cadre du projet FUI Aircobot. Ce projet, porté par Akka Technologies, a vu collaborer plusieurs entreprises (Akka, Airbus, 2MORROW, Sterela) ainsi que deux laboratoires de recherche, le LAAS et Mines Albi. L'objectif est de développer un robot collaboratif (ou cobot) capable de réaliser l'inspection d'un avion avant le décollage ou en hangar. Différents aspects ont donc été abordés : le contrôle non destructif, la stratégie de navigation, le développement du système robotisé et de son instrumentation, etc. Cette thèse répond au second problème évoqué, celui de la navigation. L'environnement considéré étant aéroportuaire, il est hautement structuré et répond à des normes de déplacement très strictes (zones interdites, etc.). Il peut être encombré d'obstacles statiques (attendus ou non) et dynamiques (véhicules divers, piétons, ...) qu'il conviendra d'éviter pour garantir la sécurité des biens et des personnes. Cette thèse présente deux contributions. La première porte sur la synthèse d'un asservissement visuel permettant au robot de se déplacer sur de longues distances (autour de l'avion ou en hangar) grâce à une carte topologique et au choix de cibles dédiées. De plus, cet asservissement visuel exploite les informations fournies par toutes les caméras embarquées. La seconde contribution porte sur la sécurité et l'évitement d'obstacles. Une loi de commande basée sur les spirales équiangulaires exploite seulement les données sensorielles fournies par les lasers embarqués. Elle est donc purement référencée capteur et permet de contourner tout obstacle, qu'il soit fixe ou mobile. Il s'agit donc d'une solution générale permettant de garantir la non collision. Enfin, des résultats expérimentaux, réalisés au LAAS et sur le site d'Airbus à Blagnac, montrent l'efficacité de la stratégie développée.

Abstract

This thesis is directed towards the autonomous long range navigation of wheeled robots in dynamic environments. It takes place within the Aircobot project. This project aims at designing a collaborative robot (cobot) able to perform the preflight inspection of an aircraft. The considered environment is then highly structured (airport runway and hangars) and may be cluttered with both static and dynamic unknown obstacles (luggage or refueling trucks, pedestrians, etc.). Our navigation framework relies on previous works and is based on the switching between different control laws (go to goal controller, visual servoing, obstacle avoidance) depending on the context. Our contribution is twofold. First of all, we have designed a visual servoing controller able to make the robot move over a long distance thanks to a topological map and to the choice of suitable targets. In addition, multi-camera visual servoing control laws have been built to benefit from the image data provided by the different cameras which are embedded on the Aircobot system. The second contribution is related to obstacle avoidance. A control law based on equiangular spirals has been designed to guarantee non collision. This control law, based on equiangular spirals, is fully sensor-based, and allows to avoid static and dynamic obstacles alike. It then provides a general solution to deal efficiently with the collision problem. Experimental results, performed both in LAAS and in Airbus hangars and runways, show the efficiency of the developed techniques.

Mots-Clés / Keywords
Asservissement visuel; Evitement de collision; Navigation; Navigation visuelle;

141193
17101
20/03/2017

Représenter pour suivre : Exploitation de représentations parcimonieuses pour le suivi multi-objets

L.FAGOT-BOUQUET

RAP

Doctorat : Université de Toulouse III - Paul Sabatier, 20 Mars 2017, 196p., Président: A.CAPLIER, Rapporteurs: V.LEPETIT, A.CAVALLARO, Examinateurs: A.CAPLIER, Directeurs de thèse: F.LERASLE, R.AUDIGIER, Membre invité: Y.DHOME , N° 17101

Lien : https://hal.laas.fr/tel-01516921

Diffusable

Plus d'informations

Abstract

Visual object tracking is a subject of significant relevance in Computer Vision and its practical applications are numerous and exploited in various areas. For example, it is used in videosurveillance domain or by self-driving car technologies that require a full understanding of the vehicle surroundings. Multiple Object Tracking based on the tracking-by-detection paradigm has widely benefited from the recent developments in object detection. However, object detectors sometimes give erroneous responses, like missed detections, false positives, or imprecise detections. Maintaining target identities and handling occlusions are some other issues more specific to Multiple Object Tracking, which remains a challenging problem. Many recent approaches have exploited complex appearance models to distinguish more efficiently the targets and gain in robustness. In this thesis, we have followed the same idea by considering appearance models based on sparse representations that have been widely used in Single Object Tracking. We focus on people tracking since most practical applications are dealing with this object category. The first contribution of this thesis consists in designing an online, meaning frame by frame, tracking approach that takes advantage of collaborative sparse representations to define the affinity values between the estimated trajectories and the last detections. Furthermore, different possible descriptions of the targets, either holistic or local ones, have been considered. Contrary to offline approaches that consider several frames, online approaches are not able to correct possible association errors like identity switches or track fragmentations. Therefore, we proposed for our second contribution to develop a tracking system with a sliding window, based on a MCMCDA approach, able to correct association errors by exploiting sparse representations well-suited for this specific framework. Since the dictionaries used are composed solely of detections, the quality of the representations based on these dictionaries is highly dependent on the performance of the object detector. In order to rely less on the detector quality, we consider for the last contribution of this thesis to use dense dictionaries that are taking into account all possible locations of a target inside each frame. Many quantitative evaluations were performed using usual and public datasets, notably those of the MOTChallenge, in order to provide a consistent comparison with other recent approaches. These evaluations show the gain in performances of our proposed contributions and demonstrate the relevance of the choices that had been made.

Résumé

Le suivi visuel d’objets est un sujet d’importance en Vision par Ordinateur dont les applications pratiques sont multiples et exploitées dans des domaines assez diversifiés. On peut citer en particulier les problématiques de vidéo-surveillance ou encore celles liées aux voitures autonomes pour lesquelles il est crucial d’analyser correctement l’environnement. Cette thèse se focalise sur le problème de suivi multi-objets en considérant plus spécifiquement le suivi de personnes multiples, cette catégorie d’objets étant l’une des plus fréquentes dans les applications déployées en pratique. Le suivi multi-objets, en utilisant le paradigme de suivi par détection, a grandement profité des avancées récentes en détection d’objets. Néanmoins, le suivi multiobjets présente encore plusieurs problèmes spécifiques et reste ainsi une problématique difficile en Vision par Ordinateur. Les détecteurs donnent occasionnellement des réponses erronées, principalement des objets non détectés ou des fausses détections, face auxquelles un algorithme de suivi doit être le plus robuste possible. Pour aboutir à des systèmes plus robustes, de nombreuses approches récentes cherchent à exploiter des modèles d’apparence spécifiques afin de mieux différencier les cibles. Cette même approche a été suivie pour cette thèse, en nous inspirant de méthodes de suivi mono-objet à base de représentations parcimonieuses. Bien que l’emploi de telles représentations se soit révélé efficace dans plusieurs domaines en Vision par Ordinateur, cet outil restait peu utilisé pour le suivi multi-objets. La première contribution présentée dans ce manuscrit consiste à employer des représentations parcimonieuses collaboratives dans un système de suivi en ligne, image après image, pour définir les affinités en apparence entre les trajectoires estimées et les dernières détections. Des considérations sur les descriptions possibles des cibles, holistiques ou locales, ont de plus été examinées. Les approches en ligne ne peuvent cependant remettre en cause les choix d’appariement effectués à chaque image contrairement à des méthodes considérant simultanément plusieurs images consécutives. Notre seconde contribution a alors été de proposer une méthode de suivi à fenêtre glissante, ou multi-images, permettant de corriger d’éventuelles erreurs d’appariement en exploitant des représentations parcimonieuses adaptées à ce cadre spécifique. La dernière contribution développée dans ce manuscrit envisage l’emploi de dictionnaires denses pour définir les représentations parcimonieuses. Des dictionnaires denses, prenant en considération toutes les positions possibles dans une image, permettent de moins dépendre de la qualité du détecteur d’objets comparés à des dictionnaires définis à partir de détections. De nombreuses évaluations quantitatives ont été réalisées sur des base de données publiques usuelles afin de permettre une comparaison avec d’autres approches récentes. Ces évaluations attestent des gains en performances des contributions proposées et valident ainsi les choix effectués.

Mots-Clés / Keywords
Suivi multi-objets; Suivi par détection; Représentations parcimonieuses; Multi-object tracking; Tracking by detection; Sparse representations;

139555
16536
05/12/2016

Co-design Hardware/Software of Real time Vision System on FPGA for Obstacle Detection

A.ALHAMWI

RAP

Doctorat : Université de Toulouse III - Paul Sabatier, Décembre 2016, 163p., Président: M.DEVY, Rapporteurs: H.SNOUSSI, J.DUBOIS, Examinateurs: J.F.NEZAN, B.VANDEPORTAELE, Directeurs de thèse: J.PIAT , N° 16536

Lien : https://hal.laas.fr/tel-01483746

Diffusable

Plus d'informations

Résumé

La Détection, localisation d’obstacles et la reconstruction de carte d’occupation 2D sont des fonctions de base pour un robot navigant dans un environnement intérieure lorsque l’intervention avec les objets se fait dans un environnement encombré. Les solutions fondées sur la vision artificielle et couramment utilisées comme SLAM ( Simultaneous Localization And Mapping) ou le flux optique ont tendance à être des calculs intensifs. Ces solutions nécessitent des ressources de calcul puissantes pour répondre à faible vitesse en temps réel aux contraintes. Nous présentons une architecture matérielle pour la détection, localisation d’obstacles et la reconstruction de cartes d’occupation 2D en temps réel. Le système proposé est réalisé en utilisant une architecture de vision sur FPGA (Field Programmable Gates Array) et des capteurs d’odométrie pour la détection, localisation des obstacles et la cartographie. De la fusion de ces deux sources d’information complémentaires résulte un modèle amélioré de l’environnement autour des robots. L’architecture proposé est un système à faible coût avec un temps de calcul réduit, un débit d’images élevé, et une faible consommation d’énergie.

Abstract

Obstacle detection, localization and occupancy map reconstruction are essential abilities for a mobile robot to navigate in an environment. Solutions based on passive monocular vision such as Simultaneous Localization And Mapping (SLAM) or Optical Flow (OF) require intensive computation. Systems based on these methods often rely on over-sized computation resources to meet real-time constraints. Inverse Perspective Mapping allows for obstacles detection at a low computational cost under the hypothesis of a flat ground observed during motion. It is thus possible to build an occupancy grid map by integrating obstacle detection over the course of the sensor. In this work we propose hardware/software system for obstacle detection, localization and 2D occupancy map reconstruction in real-time. The proposed system uses a FPGA-based design for vision and proprioceptive sensors for localization. Fusing this information allows for the construction of a simple environment model of the sensor surrounding. The resulting architecture is a low-cost, low-latency, high-throughput and low-power system.

Mots-Clés / Keywords
Implementation FPGA; Détection d’obstacles; Traitement d’images en temps réel; Accéleration hardware; Vision robotique;

139073
16504
02/12/2016

Co-design of architectures and algorithms for mobile robot localization and model-based detection of obstacles

D.TORTEI

RAP

Doctorat : Université de Toulouse III - Paul Sabatier, 2 Décembre 2016, 137p., Président: B.BOROVAC, Rapporteurs: M.AKIL, Examinateurs: J.PIAT, D.OBRADOVIC, Directeurs de thèse: M.DEVY, M.RAKOVIC , N° 16504

Lien : https://hal.laas.fr/tel-01477662

Diffusable

Plus d'informations

Résumé

Un véhicule autonome ou un robot mobile est équipé d’un système de navigation qui doit comporter plusieurs briques fonctionnelles pour traiter de perception, localisation, planification de trajectoires et locomotion. Dès que ce robot ou ce véhicule se déplace dans un environnement humain dense, il exécute en boucle et en temps réel plusieurs fonctions pour envoyer des consignes aux moteurs, pour calculer sa position vis-à-vis d’un repère de référence connu, et pour détecter de potentiels obstacles sur sa trajectoire; du fait de la richesse sémantique des images et du faible coût des caméras, ces fonctions exploitent souvent la vision. Les systèmes embarqués sur ces machines doivent alors intégrer des cartes assez puissantes pour traiter des données visuelles en temps réel. Par ailleurs, les contraintes d’autonomie de ces plateformes imposent de très faibles consommations énergétiques. Cette thèse proposent des architectures de type SOPC (System on Programmable Chip) con¸cues par une méthodologie de co-design matériel/logiciel pour exécuter de manière efficace les fonctions de localisation et de détection des obstacles à partir de la vision. Les résultats obtenus sont équivalents ou meilleurs que l’état de l’art, concernant la gestion de la carte locale d’amers pour l’odométrie-visuelle par une approche EKF-SLAM, et le rapport vitesse d’exécution sur précision pour ce qui est de la détection d’obstacles par identification dans les images d’objets (piétons, voitures...) sur la base de modèles appris au préalable.

Abstract

An autonomous mobile platform is endowed with a navigational system which must contain multiple functional bricks: perception, localization, path planning and motion control. As soon as such a robot or vehicle moves in a crowded environment, it continously loops several tasks in real time: sending reference values to motors’ actuators, calculating its position in respect to a known reference frame and detection of potential obstacles on its path. Thanks to semantic richness provided by images and to low cost of visual sensors, these tasks often exploit visual cues. Other embedded systems running on these mobile platforms thus demand for an additional integration of high-speed embeddable processing systems capable of treating abundant visual sensorial input in real-time. Moreover, constraints influencing the autonomy of the mobile platform impose low power consumption. This thesis proposes SOPC (System on a Programmable Chip) architectures for efficient embedding of vison-based localization and obstacle detection tasks in a navigational pipeline by making use of the software/hardware co-design methodology. The obtained results are equivalent or better in comparison to state-of-the-art for both EKF-SLAM based visual odometry: regarding the local map size management containing seven-dimensional landmarks and model-based detection-by-identification obstacle detection: algorithmic precision over execution speed metric.

138833
16585
25/11/2016

Application d’une méthodologie de co-design à la définition et à l’implémentation d’une chaîne SLAM opérationnelle

F.BRENOT

RAP

Doctorat : INP de Toulouse, 25 Novembre 2016, 159p., Président: M.DEVY, Rapporteurs: F.BERRY, A.IZAGUIRRE, Examinateurs: D.GINHAC, Directeurs de thèse: P.FILLATREAU, J.PIAT , N° 16585

Lien : https://hal.laas.fr/tel-01560812

Diffusable

Plus d'informations

Abstract

In the field of obstacle detection and tracking for vision-based ADAS (Advanced Driver Assistance System), it is necessary to perform short-term vehicle localisation. Vision based SLAM (Simultaneous Localization and Mapping) solves this problem by combining the vehicle state estimation (local pose and speeds) and an incremental modelling of the environment. The environment is perceived by extracting features (interest points) in a sequence of images and tracking them over time to allow an incremental landmarks map construction. The perception step leads to an important computational load which affects very significantly the system latency and throughput. Co-design methodologies allow to design a mixed processing architecture optimized for a specific application In this type of architecture, the use of hardware accelerators allows for great performance increase (throughput, memory size, power consumption). The ZynQ (Xilinx) provides a prototyping mixed-architecture including a dual-core microprocessor combined with configurable hardware resources. The goal of this thesis is to propose a co-design implementation of a vision-based SLAM processing chain involving hardware accelerators for image processing in order to meet the constraints of an embedded ADAS system. The first contribution is the design of a complete 3D EKF-SLAM processing chain thanks to a co-design approach. We defined and validated, according to the followed co-design approach, the choice of a Hardware-in-the-loop (HIL) architecture to validate the different design iterations. The second contribution is the integration of dedicated hardware modules to accelerate the visual perception computations of this processing chain (features detection, description and matching).

Résumé

Dans le domaine de la détection et du suivi d’obstacles pour les systèmes ADAS (Advanced Driver Assistance System) basés vision, il est nécessaire d’assurer la localisation à court terme du véhicule. Le SLAM (Simultaneous Localization and Mapping) basé vision propose de résoudre ce problème en combinant l’estimation de l’état du véhicule (pose dans un repère local et vitesses) et une modélisation incrémentale de l’environnement. Ce dernier est perçu par l’extraction de caractéristiques locales (points d’intérêt) dans une séquence d’images et leur suivi au cours du temps pour permettre la construction incrémentale d’une carte d’amers. Cette tâche de perception engendre une importante charge de calcul qui affecte très significativement la latence et la cadence du système. Les méthodologies de co-design permettent de concevoir une architecture mixte de calcul pour l“exécution d’une application particulière. Dans ce type d’architecture, l’utilisation d’accélérateurs matériels permet d’améliorer significativement les performances (temps d’exécution, encombrement, consommation). Le ZynQ (Xilinx) propose une architecture de prototypage mixte comprenant un processeur dual-core associé à des ressources matérielles configurables. L’objectif de cette thèse est donc de proposer une implémentation co-design d’un SLAM basé vision par la conception d’accélérateurs pour les opérations de vision afin de satisfaire les contraintes en performances des systèmes ADAS embarqués. La première contribution des travaux est la conception de cette chaîne complète 3D EKFSLAM à l’aide une approche co-design. Nous avons défini et validé, selon notre méthodologie de conception, le choix d’une architecture Hardware-in-the-loop (HIL) afin de valider les différentes itérations de conception. La seconde contribution est l’intégration de modules matériels dédiés pour accélérer les traitements de perception visuelle de cette chaîne (détection, description et mise en correspondance de points d’intérêt).

Mots-Clés / Keywords
Ingénierie dirigée par les modèles; Caméra intelligente; Embedded systems; FPGA; SLAM; Smart sensing; Vision architecture; Vision monoculaire; Visual navigation;

139992
16095
25/01/2016

Segmentation automatique d’images sur des critères géométriques, application à l’inspection visuelle de produits agroalimentaires

P.DUBOSCLARD

RAP

Doctorat : Université de Toulouse III - Paul Sabatier, 25 Janvier 2016, 149p., Président: F.LERASLE, Rapporteurs: X.DESCOMBES, T.FOURNEL, Examinateurs: D.FOFI, Directeurs de thèse: M.DEVY, A.HERBULOT , N° 16095

Non diffusable

Plus d'informations

Résumé

À l’échelle mondiale, la récolte de céréales atteint plusieurs milliards de tonnes chaque année. Les producteurs céréaliers échangent leurs récoltes selon un prix déterminé par la qualité de leur production. Cette évaluation, appelée agréage, est réalisée pour chaque lot sur un échantillon jugé représentatif. La difficulté au cours de cette évaluation est de parvenir à parfaitement caractériser l’échantillon. Il faut pour cela qualifier chacun de ses éléments, en d’autres termes, il est nécessaire d’évaluer chaque grain de céréale de manière individuelle. Cette opération est historiquement réalisée par un opérateur qui isole chaque grain manuellement pour l’inspecter et l’évaluer. Ce procédé est exposé à différents problèmes : d’une part les résultats obtenus par un opérateur ne sont pas parfaitement répétables : son état de fatigue visuelle peut influencer son appréciation; d’autre part l’évaluation dépend de l’opérateur : elle n’est pas reproductible, les résultats peuvent varier d’un opérateur à l’autre. Cette thèse a donc pour but de mettre au point un système capable de réaliser cette inspection visuelle. Le système d’acquisition est présenté dans un premier temps. Cette enceinte contient les dispositifs d’éclairage et d’acquisition d’images. Différents outils ont été mis en œuvre pour s’assurer de la justesse et de la stabilité des acquisitions. Une méthode d’apprentissage de modèles de forme est ensuite présentée : elle a pour but de définir et de modéliser le type de forme des grains de l’application considérée (blé, riz, orge). Cette étape est réalisée sur une image d’objets isolés. Deux méthodes de détection sont ensuite présentées : une approche déterministe et une approche probabiliste. Ces deux méthodes, mises au point pour segmenter les objets d’une image, utilisent des outils communs bien qu’elles soient conçues différemment. Les résultats obtenus et présentés dans cette thèse démontrent la capacité du système automatique à se positionner comme une solution fiable à la problématique d’inspection visuelle de grains de céréales

Abstract

In agriculture, the global grain harvest reached several billion tons each year. Cereal producers exchange their crops at a price determined by the quality of their production. This assessment, called grading, is performed for each set on a representative sample. The difficulty of this assessment is to fully characterize the sample. To do so, it is necessary to qualify each of its elements. In other words, it is necessary to evaluate each individual cereal grain. Historically, this has been performed manually by an operator who isolates each evaluated grain. This method is exposed to various problems : firstly, results obtained by an operator are not perfectly repeatable. For example, eyestrain can influence the assessment. On the other hand the evaluation depends on the operator : it is not reproducible. The results can vary from one operator to another. The aim of this thesis is to develop a system that can handle this visual inspection. In a first time, the acquisition system is introduced. Image acquisition and lighting parts are placed in a cabin. Several methods have been introduced to manage accuracy and stability of the acquisitions. Then, a shape model learning is detailed : this step, based on an image with manually separated objects, defines and modelizes shape of the considered cereal grains (wheat, rice, barley). Two detection approaches are then introduced : a deterministic method and a probabilistic one. Both are based on the same tools to process the objects segmentation of an image, but they deal with the question in a different way. The results provided by the system and presented in this thesis emphasize the ability of this automatic system to process the visual inspection of food products.

Mots-Clés / Keywords
Inspection; Méthodes probabilistes; Segmentation; Traitement d'image;

136532
Les informations recueillies font l’objet d’un traitement informatique destiné à des statistiques d'utilisation du formulaire de recherche dans la base de données des publications scientifiques. Les destinataires des données sont : le service de documentation du LAAS.Conformément à la loi « informatique et libertés » du 6 janvier 1978 modifiée en 2004, vous bénéficiez d’un droit d’accès et de rectification aux informations qui vous concernent, que vous pouvez exercer en vous adressant à
Pour recevoir une copie des documents, contacter doc@laas.fr en mentionnant le n° de rapport LAAS et votre adresse postale. Signalez tout problème de dysfonctionnement à sysadmin@laas.fr. http://www.laas.fr/pulman/pulman-isens/web/app.php/