Un design de référence associe contrôle vocal et reconnaissance visuelle renforcées par l’IA

[EDITION ABONNES] Renesas et la société Syntiant, spécialiste des processeurs neuronaux à ultrabasse consommation, ont développé conjointement une solution IA à interaction multimodale et contrôle vocal, dont l’objectif est de permettre le lancement sans contact de traitements d’image renforcés par l’intelligence artificielle au sein de systèmes IoT ...et de produits de périphérie de réseau (edge), tels que les caisses automatiques, les caméras de sécurité, les équipements de visioconférence ou les appareils électroménagers intelligents du type robot ménager.

Le design de référence mis au point par les deux compères associe le microprocesseur RZ/V de Renesas, qui se distingue par la présence d’un bloc d’accélération d’algorithmes IA (estampillé DRP-AI, voir notre article), et le processeur neuronal multimodal à faible consommation NDP120 de Syntiant, et ce afin de fournir des fonctions évoluées de traitement de la voix et des images.

Lancé en début d’année, le NDP120 (Neural Decision Processor) est le premier d’une famille de circuits bâtis sur le moteur d’inférence de réseaux de neurones profonds de 2e génération (Core 2) mis au point par Syntiant, société fondée en 2017 qui a déjà réussi à lever plus de 65 millions de dollars depuis sa création.

La puce applique un traitement neuronal pour exécuter plusieurs applications simultanément avec une consommation d'énergie minimale, y compris l'annulation d'écho, la formation de faisceaux, la suppression du bruit, l'amélioration de la parole, l'identification du locuteur, le repérage de mots clés, la détection de mots de réveil et d'événements, et la reconnaissance de commandes. Le tout pour une consommation inférieure au milliwatt. Le processeur NDP120 est aussi apte à réaliser de la fusion de capteurs multimodale (détection infrarouge, accélération multiaxiale, inclinaison, champ magnétique, pression…).

La solution commune à Renesas et Syntiant permet un fonctionnement toujours actif avec une sortie rapide du mode veille par déclenchement vocal pour effectuer de la reconnaissance d'objets, de la reconnaissance de visages et d'autres tâches liées à la vision qui sont des fonctions essentielles des caméras de sécurité et d'autres systèmes, détaille le Japonais. L'architecture multimodale facilite en outre la création d'expériences utilisateur sans contact pour les équipements de vision dopés à l’IA.

Selon Renesas, l'utilisation d'une puce ultrasobre dévolue à la reconnaissance vocale réduit la consommation d'énergie en veille, tout en permettant un processus de mise au point plus rapide, car il est possible de développer des logiciels indépendamment des fonctionnalités de vision avec IA. « La demande en systèmes multimodaux utilisant plusieurs flux d'informations d'entrée - à la fois image et voix - ne pourra que croître à l’avenir car c’est un moyen d'améliorer à la fois la facilité d'usage et la sécurité, anticipe Hiroto Nitta, senior vice-président et responsable des puces-systèmes SoC au sein de l’entité IoT et Infrastructure de Renesas. La collaboration de Syntiant et Renesas va accélérer l'adoption des technologies IA vocales ultracompactes et faible consommation dans les systèmes embarqués. »

Le microprocesseur RZ/V, rappelons-le, s’appuie sur l’efficacité énergétique du moteur DRP-AI optimisé pour les applications de vision pour afficher une consommation qui n’excède pas 4 W typiquement. Ce qui, selon Renesas, évite de recourir à des dissipateurs thermiques ou des ventilateurs de refroidissement, avec à la clé une réduction de la taille des équipements et de la facture matérielle.

Vous pouvez aussi suivre nos actualités sur la vitrine LinkedIN de L'Embarqué consacrée à l’intelligence artificielle dans l’embarqué : Embedded-IA