Ceva dope ses blocs d’IP de traitement neuronal pour satisfaire l’intelligence artificielle (IA) générative

Ceva IA générative

La société Ceva, qui commercialise sous licence des technologies de détection intelligente et de connectivité sans fil, a dévoilé durant l’été une famille d’unités neuronales (NPU) NeuPro-M qui ont vocation à répondre directement aux exigences de traitement de la prochaine génération d’IA générative avec des performances et une éco-efficacité adaptées à toute charge de travail d'inférence IA. Et ce du cloud jusqu’aux équipements de périphérie de réseau (edge).

Selon la société, l'architecture des NPU NeuPro-M et les outils associés ont été entièrement repensés pour prendre en charge la technologie des transformeurs (ou modèles auto-attentifs, à la base de nombreuses approches d’IA générative), en plus des réseaux traditionnels de neurones à convolution (CNN), d’autres types de réseaux de neurones et de futurs modèles d'inférence d'apprentissage automatique.

L’objectif ciblé par Ceva est que des applications optimisées exploitant les capacités de l'IA générative et de l’IA plus « traditionnelle » puissent être développées et s’exécuter sans couture sur les NPU NeuPro-M au sein de passerelles de communication, d’équipements réseau optiques, de véhicules, d'ordinateurs portables et de tablettes, de casques de réalité virtuelle ou augmentée, de smartphones, etc.

« Les réseaux de type transformeurs qui pilotent l'IA générative imposent une augmentation massive des ressources de calcul et de mémoire, ce qui nécessite de nouvelles approches et des architectures de traitement optimisées, indique Ran Snir, vice-président et directeur général de l'entité commerciale Vision chez Ceva. Le saut de performance que nous avons réalisé avec l’architecture de nos nouvelles IP NPU NeuPro-M apporte les promesses de l'IA générative à tous les cas d'usage, des équipements edge économiques jusqu'au cloud computing. »

Pour la société d’études ABI Research, le marché des puces pour l'IA générative est aujourd'hui fortement concentré et dominé par quelques fournisseurs. « Afin de tenir les promesses de cette technologie, il faut qu’il existe une voie claire vers une consommation plus faible et un traitement d'inférence à moindre coût, à la fois dans le cloud et à la périphérie, assure Reece Hayden, analyste pour la société d’études. Cela passera par des tailles de modèles plus compactes et par des ressources matérielles plus efficaces pour les exécuter. Les nouvelles IP de Ceva offrent à ce titre une proposition convaincante pour le déploiement de l'IA générative dans des systèmes embarqués avec un budget énergétique impressionnant, tandis que leur évolutivité permet également aux IP NeuPro-M de répondre à des cas d'usage plus exigeants en performances dans les équipements réseau et au-delà. »

Selon Ceva, grâce à l’évolution des techniques d'inférence et de modélisation, il est envisageable d'exploiter des modèles de langage LLM (Large Language Model) plus compacts et spécifiques à un domaine, des transformeurs de vision artificielle, ainsi que d'autres modèles d'IA générative au niveau local (et non plus uniquement dans le cloud). Ce qui devrait transformer les applications dans les domaines des infrastructures, de l'industriel, du mobile, du grand public, de l'automobile, du grand public, etc.

Dans la pratique, l'architecture NeuPro-M de Ceva a été améliorée et rendue polyvalente et évolutive grâce à un VPU (Vector Processing Unit) intégré, apte à prendre en charge toute couche de réseau future. De plus, toujours selon Ceva, l'architecture est désormais en mesure de traiter toute activation et tout flux de données avec une véritable parcimonie de données et de pondérations. Une approche qui permet une accélération jusqu'à quatre fois des performances, ce qui permettrait aux utilisateurs de satisfaire plusieurs applications et plusieurs marchés avec une seule famille de NPU.

Par ailleurs, pour permettre une plus grande évolutivité requise par les différents marchés de l'IA, la famille NeuPro-M se renforce de nouveaux cœurs NPU (NPM12 et NPM14) avec respectivement deux et quatre moteurs NeuPro-M, pour migrer facilement vers des charges de travail d'IA plus performantes. In fine, la gamme comprend désormais quatre NPU : les NPM11, NPM12, NPM14 et NPM18.

Cette polyvalence, ainsi que des performances et une efficacité énergétique présentées par Ceva comme "exceptionnelles", feraient de NeuPro-M la principale famille d’IP NPU disponible sur le marché, avec des performances maximales de 350 Tops/W dans un procédé de gravure 3 nm et une capacité à traiter plus de 1,5 million de "tokens" par seconde et par watt dans le cadre d’une inférence LLM reposant sur la technologie des transformeurs.

Vous pouvez aussi suivre nos actualités sur la vitrine LinkedIN de L'Embarqué consacrée à l’intelligence artificielle dans l’embarqué : Embedded-IA