Stage
Stage M1: Environnement multimodal pour l’aide à la création de signes LSF en ingénierie
Date de publication
02.02.26
Prise de poste souhaitée
01.06.26
Stage M1: Environnement multimodal pour l’aide à la création de signes LSF en ingénierie
Mots-clés : langue des signes, base de données multimodale, moteur de recherche, word embedding, génération de données
Date de début : à partir du 01/06/2026. Durée : 3 mois
Encadrants : Philippe Leleux (LAAS-CNRS), Anthony Réveillac (IMT). Email :
Contexte
De nombreux concepts techniques n’ont pas encore d’équivalents stabilisés en langue des signes fran¸caise (LSF), ce qui freine l’inclusion d’élèves ingénieurs malentendants. L’objectif est de concevoir un outil qui retrouve efficacement des exemples pertinents (vidéos de signes, schémas, définitions) et suggère des candidats-signes visuels pour discussion avec des experts LSF. Côté recherche d’information, les représentations jointes texte–image type CLIP et leurs extensions vidéo (CLIP4Clip) offrent une base robuste pour l’indexation et la recherche multimodales [4, 3]. Dans le champ des langues des signes, le corpus How2Sign fournit des vidéos multi-vues et des transcriptions utiles à l’entraînement/évaluation [1]. Du point de vue IHM, une étude CHI 2022 montre qu’une recherche hybride (requête vidéo + filtres linguistiques : configuration de la main, lieu, mouvement) surpasse une recherche vidéo seule pour la satisfaction et le contrôle per¸cu [2]. Enfin, pour matérialiser rapidement des candidats-signes sous forme d’images (croquis photoréalistes ou stylisés), les modèles de diffusion latente permettent une synthèse contrôlable et efficace en calcul [5].
Sujet
Objectif général : réaliser un proof-of-concept qui, à partir d’un terme technique (FR) ou de mots-clés, (i) retrouve les éléments les plus pertinents (texte, image, vidéo) et (ii) propose des images de candidats-signes, destinés à une validation par des locuteurs LSF.
- Axe 1 – Petite base de données multimodale (création & curation). La base regroupera en priorité des vidéos en LSF, complétées si nécessaire par des ressources non francophones pour établir des analogies, ainsi que des images techniques (schémas normalisés, pictogrammes) et des textes (définitions, glossaires). Chaque enregistrement sera décrit par un schéma minimal : une table asset (identifiant, modalité, source, licence, etc.), une table annotation liant l’asset à un glossaire et à des traits phonologiques (configuration de la main, lieu d’articulation, mouvement, composantes non manuelles si disponibles), et une table semantique qui associe l’asset à un terme fran¸cais, un domaine et des synonymes. L’indexation combinera des embeddings texte–image (CLIP) et vidéo–texte (CLIP4Clip) stockés dans un moteur vectoriel (similarité cosinus) avec un index symbolique sur les métadonnées phonologiques afin de permettre une recherche hybride par similarité et par facettes. La provenance et les droits d’usage seront documentés systématiquement, avec une attention particulière aux licences autorisant l’extraction de trames et de poses.
- Axe 2 – Moteur de recherche multimodal (SOTA + POC). Le moteur acceptera des requêtes par mots-clés en fran¸cais et, en option, une image ou un court extrait vidéo à titre d’exemple, puis présentera des résultats unifiés toutes modalités confondues (texte, image, vidéo) avec des filtres phonologiques (main, lieu, mouvement), la langue et le domaine technique. Le classement résultera d’une fusion pondérée entre la similarité vectorielle issue des embeddings et un score de facettes qui favorise les éléments respectant les contraintes phonologiques et le contexte de la requête, tout en offrant une prévisualisation rapide (vignettes vidéo, schémas et définitions). L’évaluation s’appuiera d’une part sur des métriques hors-ligne (Recall@K, mAP) sur un petit jeu annoté et, d’autre part, sur un test utilisateur inspiré de la littérature IHM comparant la recherche hybride au seul classement vectoriel en termes de satisfaction, d’utilité per¸cue et de sentiment de contrôle.
- Axe 3 (selon avancée) – Génération d’images de candidats-signes. La génération prendra la forme d’une chaîne légère de type RAG multimodal : les éléments récupérés (exemples visuels, poses ou diagrammes) serviront à construire un prompt structuré décrivant le terme ciblé, les traits phonologiques recherchés et les contraintes ergonomiques, qui conditionnera ensuite un modèle de diffusion pour synthétiser des images de candidats-signes. Le contrôle s’effectuera par conditionnement sur la pose (squelettes 2D), par l’usage de gabarits de handshape ou de masques régionaux, et par la production de plusieurs variantes destinées à une revue experte. L’exécution s’appuiera sur les GPU du LAAS, en veillant au respect des licences, à la confidentialité des personnes apparaissant dans les vidéos sources et, plus généralement, aux enjeux éthiques liés aux données de langue des signes.
Profil : Python (PyTorch), vision/NLP, recherche vectorielle, manipulation de vidéos; intérêt pour la LSF et l’IHM.
Références
- [1] Amanda Duarte, Shruti Palaskar, Lucas Ventura, Deepti Ghadiyaram, Kenneth DeHaan, Florian Metze, Jordi Torres, and Xavier Giro-i Nieto. How2Sign: A large-scale multimodal dataset for continuous american sign language. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 2735–2744, June 2021.
- [2] Saad Hassan, Akhter Al Amin, Alexis Gordon, Sooyeon Lee, and Matt Huenerfauth. Design and evaluation of hybrid search for american sign language to english dictionaries: Making the most of imperfect sign recognition. In Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems (CHI ’22). ACM, 2022.
- [3] Huaishao Luo, Lei Ji, Ming Zhong, Yang Chen, Wen Lei, Nan Duan, and Tianrui Li. CLIP4Clip: An empirical study of CLIP for end-to-end video clip retrieval. Neurocomputing, 2022.
- [4] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), volume 139 of Proceedings of Machine Learning Research, pages 8748–8763. PMLR, 2021.
- [5] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bj¨orn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 10684–10695, 2022.