"Trouver et localiser des objets avec précision grâce à la segmentation d'instances"

Martin-Delabre

[TRIBUNE de Martin Delabre, MVTEC] Pour une manipulation entièrement automatisée dans un environnement industriel, les objets les plus divers doivent être reconnus et localisés avec précision dans un espace tridimensionnel. Les technologies modernes de vision industrielle reposant sur le Deep Learning, telles que la segmentation d’instances (Instance Segmentation), permettent d'y parvenir. Précisions de Martin Delabre, ingénieur préventes de la société MVTec, spécialiste des logiciels de vision industrielle.

Dans les scénarios de production hautement automatisés, il est indispensable de déterminer avec précision la position et l'orientation des objets 3D les plus divers. Les systèmes modernes de traitement industriel de l'image (ou de vision industrielle) proposent à cet effet des procédés pratiques tels que le matching 3D "basé sur la surface". Cela aide par exemple les robots à saisir de manière ciblée certains objets dans une caisse et à les déposer au bon endroit à des fins de montage (bin picking). Il y a toutefois un défi à relever : les pièces sont généralement en vrac dans le conteneur.

Pour déterminer dans ces cas la position exacte et permettre une prise précise par le bras du robot, le procédé de vision industrielle utilise et analyse différentes données telles que les images en niveaux de gris et les images couleur RGB à trois canaux. Le temps d’exécution et la précision de l'application peuvent être optimisés à l'aide d'un prétraitement manuel.

En présence d'un grand nombre d'objets différents à localiser, il en résulte toutefois un travail important, car chaque pièce doit être paramétrée individuellement. Des expériences ont montré qu'un autre défi peut résider dans les propriétés respectives des matériaux. Par exemple, les objets métalliques fortement réfléchissants sont difficiles à localiser, ce qui entrave le processus de préhension automatisé. De plus, des problèmes peuvent survenir en raison du temps de traitement trop long. Cela s'explique par le fait qu'un nombre important de points non pertinents (par exemple le fond) sont pris en compte dans le cadre du processus de matching.

Une plus grande efficacité grâce à la limitation de la région de recherche

Pour un matching plus efficace et des résultats de reconnaissance plus robustes, il est judicieux de restreindre la région de recherche. Toutefois, cela nécessite un prétraitement manuel qui, dans des scénarios d'application complexes, demande beaucoup d'efforts. Les procédés d'intelligence artificielle (IA) tels que le Deep Learning peuvent offrir une aide pratique dans ce domaine. Leur avantage réside dans le concept de "l'apprentissage de bout en bout". Grâce à l'analyse des données d’apprentissage, l'algorithme détermine de manière autonome les caractéristiques les plus marquantes pour chaque classe ou objet.

Sur la base de données variées, il est ainsi possible d'entraîner un modèle générique capable de localiser avec une très grande précision de nombreux objets différents dans des images 2D. Les logiciels de vision industrielle modernes tels que MVTec Halcon contiennent déjà ces algorithmes.

Les méthodes de Deep Learning peuvent ainsi être utilisées par exemple pour la pré-localisation des objets à saisir, ce qui permet de réduire le temps de traitement des applications de matching et de réaliser un résultat de recherche très précis. Deux méthodes entrent en ligne de compte : la détection d'objets et la segmentation sémantique. La première localisera les classes d'objets entraînées et les identifiera à l'aide d'un rectangle englobant (bounding box). Les objets qui se touchent ou se chevauchent partiellement sont également séparés, ce qui permet de reconnaître des instances d'objets individuelles.

Pour le matching "basé sur la surface", la région de recherche peut alors être réduite aux rectangles trouvés, ce qui peut entraîner des temps de matching plus courts. Toutefois, si la région de recherche est mal placée, elle peut dépasser de l'objet, ce qui peut ralentir le processus et/ou entraîner des résultats de recherche erronés.

Réunir les technologies de Deep Learning en une seule solution

La deuxième méthode reposant sur le Deep Learning est la segmentation sémantique. Appliquée aux images 2D, elle fournit des régions au pixel près pour chaque classe d'objets dans l'image. Cela permet de restreindre l'espace de recherche, mais les différents objets ne sont pas isolés, ce qui agrandit inutilement la région de recherche appropriée pour le matching.

Les deux approches, à savoir la détection d'objets et la segmentation sémantique, peuvent être parfaitement combinées dans une solution sophistiquée. Cette solution, intégrée dans MVTec Halcon et appelée Instance Segmentation, combine les avantages des deux méthodes en permettant aussi bien des instances d’objets individuels qu’'une segmentation précise au pixel. La région obtenue décrit la zone exacte de l'image qui contient l'objet en question. Le nuage de points peut ensuite être réduit grâce à la corrélation connue entre l’image 2D et les données 3D. Cela signifie que seules les données 3D correspondantes aux régions identifiées dans l'image 2D peuvent être utilisées pour un traitement ultérieur.

Le matching 3D "basé sur la surface" n'est donc effectué que sur une fraction des données, ce qui peut réduire considérablement le temps d'exécution. La pré-segmentation basée sur l’image 2D permet aussi une estimation encore plus robuste de la position des objets.

La technologie Instance Segmentation offre donc de nombreux avantages. La zone de recherche est limitée de manière ciblée, le temps d'exécution est optimisé et la précision des résultats de recherche est améliorée de manière significative.

En conclusion, les technologies de vision industrielle reposant sur le Deep Learning, telles que la détection d'objets et la segmentation sémantique, aident à localiser précisément les objets dans des scénarios de fabrication automatisés. L'Instance Segmentation est une combinaison idéale des avantages des deux méthodes. Celle-ci utilise les avantages des deux méthodes de manière à limiter avec précision la zone de recherche du matching 3D "basé sur la surface", même dans des cas d'application complexes. Cela augmente l'efficacité et permet des processus de matching plus rapides ainsi que des résultats plus robustes.