Images et Croquis

1. Reconnaissance et localisation d'objets dans les images

Depuis 2012, des algorithmes d’intelligence artificielle appelés réseaux de neurones profonds ont montré leur supériorité sur toute autre approche en matière de reconnaissance d’objets sur des images.

Dans ce sens ils sont capables de classer de images selon leur contenu mais aussi de localiser ce contenu dans les images. Notre expertise couvre donc ces deux fronts.

Ainsi, nous appliquons cette expertise aux moteurs de recherche pour grandes bases de données audiovisuelles, ainsi qu’à l’indexation et enrichissement de flux audiovisuels, d’archives culturelles numérisées, ou de collections de contenu créatif, les algorithmes égalant, voir dépassant les performances humaines sur un millier de contenus courants (personnes, animaux, objets).
En plus de l’archivage, les algorithmes sont capables de situer les contenus dans les images, et d’en analyser les caractéristiques (positions relatives des contenus les uns par rapport aux autres, textures, orientations, etc.) Divers algorithmes permettent même de réaliser ces opérations en temps réel sur des processeurs embarqués.

Exemple : Le système YOLO mis au point à l’université de Washington et largement distribué (cliquez ici) est actuellement l’un des plus rapides et des plus efficaces dans la détection et le positionnement des objets.

 

3. Génération de carte de profondeur sur une image

En vision par ordinateur, la structure 3D d’une scène s’avère être une information précieuse pour de nombreuses tâches. Par exemple, elle permet à un robot de calculer son déplacement et d’interagir avec son environnement. La 3D est généralement acquise grâce à des capteurs spécifiques tels qu’une caméra de profondeur. Récemment, profitant du développement du deep learning et de l’abondance de datasets, de nouvelles méthodes ont été proposées pour estimer la profondeur d’une scène à partir d’une image 2D capturée par une caméra standard. Ces méthodes sont implémentées à l’aide d’outils d’apprentissages automatiques comme TensorFlow ou encore Keras.

2. Recherche d’images par similarité ou par croquis

Nos compétences en traitement d’image et vision par ordinateur couvrent également la reconnaissance automatique de dessins et croquis ainsi que les modes de formulation de requête alternatifs, par similarité visuelle, ou graphique plutôt que par mot-clé ou sémantique. Nous avons par exemple réalisé un outil d’aide à la recherche d’images (photos, dessins, peintures, …) dans des grandes banques d’images et des fonds documentaires, par requête formulée sous forme d’un croquis (2D).

4. Multimodalité langage-image

Les méthodes d’interaction homme-machine naturelles, en particulier par la voix et le langage, élargissent les possibilités de développement d’interfaces innovantes entre l’homme et l’ordinateur. Beaucoup d’interactions sont cependant située dans un contexte concret, ou la compréhension de l’environnement est une nécessité pour désambiguïser le langage, ou pourvoir répondre à des questions. Des techniques d’intelligence artificielle permettent d’établir des ponts de l’image vers le langage (décrire une image, une scène ou une vidéo par des phrases) ou vice-versa (générer ou rechercher des images représentatives de phrases), et à l’avenir de pouvoir dialoguer avec la machine.