La maîtrise des aspects matériels et logiciels permet de créer des applications d’IA embarquées hautes performances[APPLICATION TRIA TECHNOLOGIES] La synergie mise en place entre Tria Technolgies, une société et une marque du distributeur Avnet, et Qualcomm permet de bénéficier d’une accélération de l’implantation d'application d'IA dans les systèmes embarqués et d'une infrastructure logicielle donnant accès à une large gamme de modèles d’IA et d’une prise en charge matérielle. Une approche qui permet aux développeurs d’évaluer, de prototyper et de tester des concepts rapidement.
directeur du marketing produits Tria Technologies L’intelligence artificielle (AI) est devenue l’un des principaux facteurs d’innovation dans tous les secteurs d’activité. Les performances élevées du cloud computing ont permis d’exploiter l’IA pour créer des agents intelligents, capables de prendre le contrôle de procédés métier importants et de les simplifier. De leur côté, les développeurs et les utilisateurs de systèmes embarqués contrôlant les procédés industriels et autres opérations en temps réel peuvent s’appuyer sur le cloud pour profiter de tous les avantages de l’IA. Cette progression est cependant freinée par les contraintes propres au traitement local par l’IA, car cette dernière nécessite une connexion permanente avec les serveurs cloud. De nombreux fournisseurs de semi-conducteurs proposent à ce niveau des des accélérateurs d’IA spécifiques, le plus souvent incorporés dans des processeurs multicœurs généralistes. Les performances de ces accélérateurs embarqués sont généralement limitées par la puissance disponible et le nombre de composants accessibles localement. Ce qui creuse un fossé entre les capacités réelles de ces solutions et celles disponibles sur le cloud. Cet écart est encore plus visible en raison de la dépendance croissante aux grands modèles d’IA générative qui sont derrière la plupart des applications agentiques et qui ont permis la généralisation des interfaces en langage naturel. Ainsi, la recherche de systèmes d’IA toujours plus efficaces a débouché sur des technologies telles que MobileNet pour la reconnaissance d’images. Celles-ci permettent d’exécuter des modèles pour les applications dans les domaines de la sécurité, de la distribution, de la logistique et de l’automatisation industrielle. La taille et l’efficacité des calculs font également l’objet de développements similaires autorisant les développeurs à profiter de gains de précision imputables à des ensembles d’entraînement plus larges et débouchant sur des implantations d’IA générative capables de se substituer à des modèles beaucoup plus grands, tels que Llama2-7B. TinyLlama, par exemple, demande moins de 3 milliards de paramètres. Le développement de modèles d’IA plus simples s’accompagne désormais d’optimisations matérielles permettant d’améliorer le débit sur une base matérielle plus compacte. Développement de l'IA embarquées avec Qualcomm Dans ce paysage, Qualcomm a réalisé des évaluations poussées de techniques telles que le pruning (réduction des paramètres inutiles) et le microscaling qui permettent d’éliminer les surcharges de calcul. Le microscaling, par exemple, remplace les opérations en virgule flottante par une arithmétique entière plus efficace sur le plan matériel et fondé sur des opérandes plus petites. L’acquisition récente de la société Edge Impulse par Qualcomm, un spécialiste de l’optimisation de l’IA pour le matériel basse puissance, va dans ce sens. Qualcomm bénéficie ainsi d’une approche plus claire des techniques d’optimisation des modèles applicables à l’IA générative. L’équipe d’ingénierie de Qualcomm a par exemple contribué à l’élaboration du concept de "décodage spéculatif" comme méthode d’amélioration de la latence et de l’efficacité des grands modèles de langage (LLM). Cette technique répartit l’exécution entre un petit modèle local et un modèle cloud de façon à accélérer l’exécution dans son ensemble. Comprendre le décodage spéculatif et les autres fonctions d’IA optimisées pour les applications en périphérie et embarquées a enrichi en retour l’architecture matérielle que Qualcomm a développée au cours de la dernière décennie. Implanté initialement sur la plateforme pour smartphone Snapdragon, ce matériel est désormais présent dans l’automatisation industrielle avec la famille Dragonwing. Cependant, l’optimisation des modèles a ses limites en termes de portage des modèles d’IA hautes performances sur les plateformes embarquées. A ce niveau, les processeurs Snapdragon et Dragonwing ont pour ambition de combler cette lacune. Alors que la majeure partie des solutions concurrentes ne dépassent pas le seuil de 10¹² opérations par seconde (TOPS), la génération de la famille Qualcomm dépasse 100 TOPS. Cela permet non seulement d’exécuter des modèles TinyLlama et autres LLM simplifiés, mais aussi les modèles Llama2 à 13 milliards de paramètres. Ces grands modèles peuvent s’exécuter à un rythme de plus de 10 jetons par seconde, ce qui permet d’utiliser l’IA générative localement pour bénéficier d’interfaces en langage naturel. En parallèle, l’optimisation de l’énergie sur l’architecture Hexagon de Qualcomm, un coeur de calcul neuronal (NPU, Neural Procession Unit) a permis à Dragonwing de prendre en charge l’IA. Ses caractéristiques ont notamment permis de prolonger l’autonomie des systèmes à batterie. Par exemple, l'inférence par micro-blocs exploite l'architecture centrale du coprocesseur Hexagon organisée autour de moteurs d'exécution partageant une mémoire centrale commune. L'inférence par micro-blocs assure notamment l’exécution d’un modèle simplifié pendant de longues périodes en mode basse consommation. Une approche qui s’applique en particulier à certains types de son ou de mouvement sur une image capturée par une caméra. Ce petit modèle permet ensuite d’activer des tâches plus poussées pour évaluer l’entrée. Quant à l’architecture mémoire commune, elle permet aux développeurs de profiter de techniques telles que la fusion des couches, notamment pour MobileNet et d’autres modèles. En traitant plusieurs couches à la fois, le processus de fusion réduit notamment le nombre d’accès à la mémoire externe. Cela permet de réaliser des économies d’énergie considérables par rapport à d’autres architectures et implémentations. Les moteurs d’exécution de Hexagon incluent également des pipelines dédiés à l'arithmétique scalaire, vectorielle et tensorielle Cette organisation permet aux logiciels d’exécuter des tâches sur la partie la plus pertinente du coprocesseur, afin de profiter pleinement de ses capacités d’accélération. Au-delà, il est possible d’augmenter le débit du fait de la prise en charge du multithreading symétrique. Cette technique exploite le parallélisme au niveau des threads pour masquer la latence des accès à la mémoire externe. Lorsqu’un thread doit attendre la mémoire, un autre thread disposant déjà des données requises peut s’exécuter jusqu’à ce qu’il soit contraint de s’arrêter en attendant qu’un autre prenne le relais. Ici, Hexagon intègre un processeur scalaire qui assure l'exécution d'un système Linux. Ce qui permet de gérer des pipelines multi-modèles très complexes sans recourir aux processeurs d’application Arm que Dragonwing incorpore également. De mutiples formats pour implanter l'IA avec Qualcomm dans l'embarqué L’incorporation des processeurs Dragonwing par Tria est réalisée au sein d'une famille de produits SoM (system-on-module) autorisant les développeurs à profiter d’un accès simplifié à cette technologie. Pour les processeurs d’IA Qualcomm, tels que le QCS5430 et le QCS6490, Tria a opté pour la création de cartes SoM autour de l’architecture Smarc (Smart Mobility ARChitecture). L’utilisation du standard Smarc apporte aux développeurs une famille de modules compatibles avec l’IA qui peuvent être utilisés dans des produits où la taille et l’espace sont limités, tels que les robots mobiles.
Les modules Smarc (82 sur 50 mm) laissent en outre aux concepteurs un large choix à partir de toute une gamme fondée sur des architectures basée sur Dragonwing autour des processeurs QCS5430, QCS6490 et IQ6. L’utilisation du format OSM (Open System Module), de son côté, un module à souder conçu autour de l’IQ6, vise essentiellement les applications nécessitant une plateforme d’IA plus compacte.
Gtrâce à une conception optimisée sur les plans thermique et électrique, les concepteurs de Tria ont déjà validé le comportement de ces modules dans des environnements soumis à des contraintes thermiques fortes, de sorte que les ingénieurs qui souhaitent les utiliser n’ont pas à deviner comment ils se comportent dans différentes conditions, notamment en cas d’exposition directe aux rayons du soleil lorsqu’ils sont montés à l’extérieur. L’approche modulaire de Tria permet également d’assurer l’évolution entre différentes générations de produits, ce qui facilite les mises à niveau et permet de profiter de solutions de remplacement plus performantes. Avec une conception matérielle prédéfinie facilitant l’intégration dans des produits finaux, la solution AI Hub de Qualcomm accélère en sus la commercialisation. Ce logiciel permet d’accéder à des centaines d’implémentations de modèles qui ont été optimisées pour les plateformes Snapdragon et Dragonwing. Il ne reste plus aux utilisateurs qu’à sélectionner et télécharger des modèles pour profiter de l’IA, ce qui leur permet d’essayer différentes approches pour identifier celle qui convient le mieux à l’application cible. |