Vers l'essor de l'IA embarquée et de petits modèles de langage dans l'électronique grand public

[APPLICATION SYNAPTICS] Aujourd’hui, la notion de “maison intelligente” a évolué bien au-delà des télécommandes et des applications pour smartphone avec une prochaine vague d'innovation qui se concentre sur l'intégration de l'intelligence directement dans les appareils du quotidien. Ce qui leur permet de comprendre, de s'adapter et de répondre à nos besoins en temps réel. Au cœur de cette transformation se trouve une évolution vers l'intelligence artificielle (IA) embarquée et, plus spécifiquement, du déploiement de petits modèles de langage (SLM, small language models) et d'interfaces multimodales qui exploitent les avancées des moteurs de calcul performants pour rendre les appareils vraiment intelligents, et pas seulement connectés.

Auteur : John Weil

Vice President of IoT and Edge AI Processor Business

Synaptics

Historiquement, la plupart des services fondés sur l'IA s’appuyaient fortement sur l'infrastructure cloud. Les données étaient collectées sur l'appareil et envoyées au cloud pour traitement. Ensuite une réponse était renvoyée. Bien que puissant, ce modèle présente des inconvénients majeurs : latence, problèmes de confidentialité, coûts de bande passante et dépendance à une connexion Internet fiable. L'IA embarquée vise à changer cela. L'objectif est maintenant de proposer un comportement similaire à celui de l'IA générative, tout en respectant les contraintes des systèmes embarqués : faible consommation d'énergie, rentabilité et réactivité en temps réel.

Plutôt que d'intégrer un modèle de langage étendu (LLM, large language model) complet à votre machine à laver, les fabricants peuvent désormais implémenter des modèles compacts et spécifiques à un domaine, qui fournissent l'interaction naturelle recherchée par les utilisateurs, sans nécessiter de recours au cloud. Et ainsi, de passer dee la lecture de codes d'erreur à des interfaces conversationnelles dans un lanage naturel.

Puissance et praticité des petits modèles de langage

Condidérons par exemple, le scénario courant d'un appareil affichant un code d'erreur cryptique. Habituellement, les utilisateurs doivent consulter un manuel, appeler un agent de service ou consulter des forums en ligne pour comprendre le problème. L'IA embarquée change cette dynamique. Grâce aux modèles en langage naturel intégrés, l'appareil peut simplement répondre à une question telle que “Pourquoi mon lave-vaisselle s'est-il arrêté ? ” par une explication contextuelle et personnalisée : "Le filtre était plein et le cycle s'est arrêté à 23 h 58 ".

Ce type de retour d'information transparent et conversationnel améliore la convivialité et réduit la frustration, tout en diminuant les appels au support client pour les fabricants. Pour fournir ce type d'intelligence dans le cahier des charges d'un appareil de cuisine ou d'un thermostat, les SLM offrent une solution performante et efficace.

Ces modèles comprennent généralement quelques millions de paramètres, bien moins que les milliards utilisés par les modèles à l'échelle du cloud tels que GPT-4, mais sont optimisés pour des tâches spécifiques à un domaine précis. A ce niveau les SLM ne visent pas à générer du texte créatif ni à répondre à des questions de culture générale. Au lieu de cela, ils effectuent une compréhension hautement structurée du langage naturel, convertissant les entrées utilisateur en jetons mathématiques et les associant à un ensemble de réponses prédéfinies et organisées.

Ce processus, souvent implanté à l'aide de transformateurs de phrases et d’embeddings, est incroyablement efficace et évite le risque d’”hallucinations” observé dans les LLM. De plus, ce type d'architecture est modulaire. Les entrées comme la parole sont converties en embeddings (*)  vectoriels et comparés à une base de données locale. Puis la réponse correspondante est renvoyée sous forme de texte ou d'audio.

La base de données elle-même est suffisamment légère pour résider dans la mémoire flash de l'appareil et peut être mise à jour sans fil (OTA, over the air) si nécessaire.

Entrées multimodales : une nouvelle dimension de la perception du contexte

Si la voix reste la modalité d'entrée la plus répandue, l'IA embarquée se développe de plus en plus pour prendre en charge l'interaction multimodale, c'est-à-dire la capacité à traiter et à combiner des entrées provenant de différentes sources, telles que la vision, le texte, les gestes ou les capteurs environnementaux. Par exemple, un appareil équipé d'une caméra pourrait combiner l'entrée vocale et la détection d'objets pour effectuer des tâches telles qu'identifier un objet mal placé ou reconnaître des gestes de la main pour la saisie de commandes.

Un système CVC (Chauffage, Ventilation, Climatisation) intelligent peut intégrer des capteurs d'humidité, de température et de qualité de l'air et croiser ces données avec les commandes vocales de l'utilisateur pour proposer des réponses personnalisées. Telles que "L'humidité est élevée dans cette pièce ; souhaitez-vous allumer le déshumidificateur ?"

Ce type de fusion multicapteurs permet aux appareils de prendre de meilleures décisions, d'adapter leur comportement aux préférences individuelles et de fournir de manière proactive des informations ou des suggestions de maintenance, créant ainsi un véritable assistant intelligent. Certes, une base de traitement adéquate est essentielle pour l'IA de périphérie.

Mais pour de nombreux fabricants d'appareils grand public, en particulier ceux qui découvrent l'univers de l'IA, le plus grand défi ne réside pas seulement dans les performances ou l'efficacité énergétique, mais dans la facilité de développement.

Ainsi, construire des systèmes fondés sur l'IA nécessite souvent de se familiariser avec des problématiques inconnues : pipelines de données, modélisation, optimisation des inférences et intégration avec le matériel embarqué. Sans les outils et le support adéquats, ces complexités peuvent rapidement devenir insurmontables. Et les solutions de traitement adaptées développées pour d'autres applications, telles que les PC et les appareils mobiles, ne sont pas adaptées aux appareils de périphérie.

Reconnaissant ce problème, les solutions de calcul natives à l'IA, telles que la plateforme Synaptics Astra, rendent le développement de l'IA embarquée accessible à un plus large éventail de développeurs et d'équipes produit. Astra combine silicium, logiciels et outils tous optimisés dans un environnement de développement cohérent, spécialement conçu pour les applications embarquées.

Il comprend un kit de développement robuste avec des conceptions matérielles de référence, des SDK, des modèles pré-entraînés et des outils intuitifs pour le déploiement de modèles et l'optimisation des performances, permettant aux équipes de réaliser des prototypes, de les tester et de faire évoluer rapidement les fonctionnalités d'IA.

Un engagement tout aussi important est la compatibilité avec un écosystème ouvert. Les développeurs peuvent ainsi intégrer des modèles issus de frameworks populaires tels que TensorFlow Lite ou ONNX et tirer parti des outils open source et des ressources de la communauté. Cette approche ouverte favorise la flexibilité et évite la dépendance vis-à-vis d'un fournisseur, permettant aux entreprises de différencier leurs produits sans être contraintes par des chaînes d'outils propriétaires.

Des cas d'utilisation concrets dans la maison

On voit d’ores et déjà des fabricants adopter l'IA embarquée et les SLM dans diverses catégories d'électronique grand public et de maison intelligente. Dans l’électroménager, les lave-vaisselle, les lave-linge et les fours peuvent désormais offrir une aide contextuelle, interpréter les questions et dépanner les problèmes, le tout sans nécessiter de smartphone ni de connexion au cloud.

Pour ce qui a trait aux caméras de sécurité, les modèles d’IA peuvent détecter les visages, distinguer les personnes des animaux et permettre aux utilisateurs d’interagir avec la caméra, remplaçant ainsi les interfaces d’applications complexes et les menus interminables.

Du côté des imprimantes et routeurs, les appareils traditionnellement affectés par une mauvaise expérience utilisateur peuvent bénéficier d’interfaces conversationnelles qui simplifient la configuration, diagnostiquent les problèmes de réseau et anticipent les besoins d'approvisionnement ("Combien de pages avant l'épuisement du toner ?").

Pour les thermostats et systèmes CVC, grâce à l’IA embarquée, les installateurs et les propriétaires peuvent interagir avec les appareils de manière plus intuitive. Par exemple, un thermostat à commande vocale pourrait guider l'utilisateur lors de l'installation et suggérer un emplacement optimal en fonction de la puissance du signal ou des conditions environnementales.

En ce qui concerne les appareils audio et vidéo grand public, les téléviseurs intelligents, les lecteurs multimédias et les appareils de streaming peuvent se passer de télécommandes et offrir une interaction enrichie par la voix, la vision, ou les deux, en proposant des suggestions, en indexant du contenu ou en automatisant des tâches répétitives.

IA en périphérie : sécurité et confidentialité dès la conception

L'une des raisons les plus convaincantes d’amener l'intelligence vers la périphérie est la sécurité. En gardant les données locales, sans jamais les transmettre au cloud, les consommateurs reprennent le contrôle de leurs informations personnelles. Ceci est particulièrement important pour les appareils domestiques susceptibles de collecter des données vocales, visuelles ou comportementales.

De plus, les appareils périphériques non connectés peuvent néanmoins offrir de riches fonctionnalités d'IA. Les fabricants peuvent concevoir des appareils préservant la confidentialité qui offrent une interaction et une personnalisation pertinentes, tout en restant hors ligne et à l'abri des menaces externes.

D'un point de vue commercial, l'IA embarquée permet de réduire les coûts totaux sur toute la durée de vie du produit. En réduisant le nombre d'appels au support client, en minimisant les retours dus à la confusion et en diminuant les coûts d'infrastructure liés à l'utilisation du cloud, les fabricants peuvent réaliser des économies significatives.

Sur le plan environnemental, l'IA en périphérie est plus durable. Elle consomme moins de bande passante, allège la charge des centres de données et prolonge la durée de vie des produits en permettant des mises à jour OTA des logiciels et des bases de données de connaissances plutôt que de nécessiter le remplacement du matériel.

Perspectives de marché et opportunités stratégiques

Avec la technologie de l'IA devenant plus accessible, nous assistons dès lors à une démocratisation de l'intelligence à la périphérie. Ce qui était autrefois l'apanage de quelques géants de la technologie est désormais accessible aux fabricants d'appareils électroménagers, aux start-ups IoT et aux marques d'électronique grand public.

Le marché mondial de l'IA de périphérie dans les appareils grand public devrait donc connaître une croissance rapide, motivée par une demande accrue pour les interfaces à commande vocale, un regain d'intérêt pour la confidentialité et le calcul local, la prolifération des capteurs IoT et de la vision embarquée et les avancées des processeurs embarqués à basse consommation tels que le SoC Astra de Synaptics.

Ces tendances se conjuguent pour offrir une opportunité majeure de redéfinir ce que le concept d’”intelligent” signifie à la maison : non seulement connecté à Internet, mais aussi contextuel, fiable, réactif et personnalisé. L'ère des appareils intelligents ne se résume plus à des fonctionnalités tape-à-l'œil et souvent inutilisées. Il s'agit désormais d'une intelligence axée sur la valeur, intégrant la connaissance et l'interaction directement là où elles comptent le plus.

Qu'il s'agisse d'un lave-vaisselle capable d'expliquer son comportement, d'un thermostat qui vous guide lors de l'installation ou d'une imprimante qui sait quand demander plus d'encre, l'IA embarquée simplifie les interactions quotidiennes, les rend plus humaines et bien plus utiles. Plutôt que de se focaliser sur l'IA pour l'IA, les implémentations les plus réussies se concentreront sur la résolution des problèmes réels des utilisateurs, la fluidité des expériences et la réduction de la charge mentale liée à l'utilisation de la technologie.

Grâce aux SLM, aux interfaces multimodales et à un calcul en périphérie performant, nous assistons à l'avènement d'appareils plus intelligents et plus intuitifs dans nos foyers.

(*) Un embedding ou incorporation en français est une représentation vectorielle numérique d'éléments comme des parties de texe ou de paroles, utilisée dans les modèles d'IA générative