Xilinx glisse des moteurs d’accélération IA dans ses futurs composants hétérogènes à logique programmable

[EDITION ABONNES] A l’occasion de son forum annuel de développeurs, Xilinx a donné quelques détails sur les premiers modèles de la famille de plates-formes ACAP (Adaptive Compute Acceleration Platform) du nom de l’architecture dévoilée pour la première fois par le spécialiste des FPGA en mars 2018. ...Gravés selon le procédé FinFET 7 nm de TSMC, les premiers ACAP Versal, dont la disponibilité en volume est prévue au cours du second semestre 2019, associeront sur une seule puce une nouvelle génération de matrice FPGA avec mémoire distribuée et blocs DSP programmables au niveau matériel, un SoC multicœur (avec processeurs d'application et processeurs temps réel) et un ou plusieurs moteurs de calcul programmables au niveau logiciel mais adaptables au niveau matériel, le tout étant relié par un réseau-sur-puce (NOC, Network-On-Chip). Ces composants seront programmables et pourront être optimisés tant au niveau matériel que logiciel par des développeurs hard et soft ainsi que par des spécialistes de la science des données, assure Xilinx, et ce grâce à un portefeuille d’outils, de logiciels, de bibliothèques, d’IP, de middleware et de frameworks utilisables au sein de flots de conception standard.

Pour la société américaine, l’architecture ACAP, qui a nécessité quatre ans de développement et plus d’un milliard de dollars d’investissement, est taillée pour accélérer de nombreuses applications dans le domaine émergent du Big Data et de l’intelligence artificielle (IA) : transcodage vidéo, gestion de base de données, compression de données, calcul d’inférences IA, génomique, vision artificielle, accélération réseau, etc.

Les premiers ACAP Versal disponibles ont pour dénominations Versal Prime et Versal AI Core. Ces derniers, censés afficher une performance en calcul d’inférences huit fois plus élevée que celle des processeurs graphiques GPU les plus en vue, embarquent un bloc matériel estampillé AI Engine, conçu pour répondre aux besoins émergents d’accélération d’applications d’intelligence artificielle dans un grand nombre d’applications, ainsi que des implémentations DSP avancées pour les applications sans fil et radar, précise Xilinx.

Dans le détail, la famille Versal AI Core se décline en cinq modèles dotés de 128 à 400 moteurs AI Engine. On y trouve aussi un double cœur Arm Cortex-A72, un double cœur temps réel Arm Cortex-R5, 256 Ko de mémoire avec correction d’erreurs ECC et plus de 1 900 moteurs DSP optimisés pour les calculs en virgule flottante à haute précision et faible latence. Les puces AI Core intègrent également plus de 1,9 million de cellules logiques système avec jusqu’à 130 Mbits de mémoire UltraRAM, 34 Mbits de Block-RAM, 28 Mbits de RAM distribuée et 32 Mo de nouveaux blocs RAM d’accélération auxquels n’importe quel moteur peut accéder directement. La famille Versal AI Core dispose aussi d’interfaces PCIe Gen4 à 8 et 16 liens, d’interfaces hôtes CCIX, de SerDes 32G optimisées en consommation, de contrôleurs mémoire DDR4 (jusqu’à quatre), de contrôleurs MAC Ethernet (jusqu’à 4) et de 650 entrées/sorties hautes performances (pour des liens Mipi D-PHY, Nand, mémoire de stockage et LVDS), auxquelles s’ajoutent 78 entrées/sorties multiplexées et plus de 40 I/O HD pour des interfaces 3,3 V.

La famille Versal Prime, quant à elle, est optimisée pour la connectivité et l’accélération de diverses charges de travail, précise la société américaine. Orientée milieu de gamme, elle se décline en neuf modèles embarquant chacun un double cœur Arm Cortex-A72, un double cœur temps réel Arm Cortex-R5, 256 Ko de mémoire avec correction d’erreurs ECC et plus de 4 000 moteurs DSP optimisés pour les calculs en virgule flottante à haute précision et faible latence. Les puces intègrent également plus de 2 millions de cellules logiques système avec jusqu’à 200 Mbits de mémoire UltraRAM, 90 Mbits de Block-RAM et 30 Mbits de RAM distribuée aptes à prendre en charge des hiérarchies mémoire personnalisées. La famille Versal Prime dispose aussi d’interfaces PCIe Gen4 à 8 et 16 liens, d’interfaces hôtes CCIX, de SerDes 32G optimisées en consommation, de SerDes PAM4 58G, de contrôleurs mémoire DDR4 (jusqu’à six), de contrôleurs MAC Ethernet (jusqu’à 4) et de 700 entrées/sorties hautes performances, auxquelles s’ajoutent 78 entrées/sorties multiplexées et plus de 40 I/O HD pour des interfaces 3,3 V.

Xilinx, qui assure travailler déjà avec certains clients privilégiés sur ces nouvelles puces, compte donner des détails sur les outils de programmation associés courant 2019.