Le britannique Omnitek produit le réseau de neurones sur FPGA le plus performant du moment

DPU Omnitek

La firme britannique Omnitek, spécialisée dans la conception de systèmes vidéo et de vision architecturés autour de FPGA et de puces-systèmes SoC, affirme avoir porté sur un FPGA le réseau de neurones à convolution (CNN) le plus puissant du moment. ...Si l’on en croit son concepteur, le DPU (Deep Learning Processing Unit) de la société d’outre-Manche affiche des performances de 50% supérieures à tout autre CNN et « enfonce » les processeurs graphiques (GPU) à consommation ou coût comparables. Cette unité de traitement d’apprentissage profond, disponible aujourd’hui en tant que CNN, sera aussi proposée à l’avenir sous la forme de réseau de neurones récurrents (RNN) et de perceptron multicouche (MLP).

Selon Omnitek, la capacité du DPU à tourner sur des FPGA ouvre la voie à de futures optimisations en raison de la nature programmable de ces composants logiques. Pour les applications qui n’exigent pas un niveau particulièrement élevé de performances, cet avantage peut être bridé afin de bénéficier de baisses significatives de coût et de consommation, ajoute encore le Britannique.

Implémenté en tant que CNN GoogLeNet Inception-v1 avec une résolution de 8 bits pour les nombres entiers, le DPU d’Omnitek affiche une performance de 16,8 Tops et s’avère capable de traiter les inférences sur plus de 5 300 images par seconde sur un FPGA Xilinx UltraScale+ XCVU9P-3. Une caractéristique qui le rend bien adapté aux applications de détection d’objets et de traitement vidéo dans le cloud ou en périphérie de réseau (edge) telles que la conversion ascendante 8K (up-scaling) par super-résolution où la performance est de prime importance, assure Omnitek.

Le DPU est intégralement programmable par logiciel en langage C/C++ ou Python au travers de frameworks comme TensorFlow, sans qu’une expertise FPGA ne soit requise, ajoute encore la société britannique.

D’aucuns considèrent aujourd’hui que les FPGA sont idéalement adaptés aux applications d’apprentissage automatique en raison de leur architecture DSP massivement parallèle, leur mémoire distribuée et leur capacité à reconfigurer la logique et la connectivité pour différents algorithmes. A ce titre, estime Omnitek, le DPU peut être configuré pour fournir des performances de calcul optimales pour l’éventail de topologies de réseaux de neurones et de techniques d’optimisation qui existent aujourd’hui, ainsi que pour les algorithmes encore inconnus qui ne manqueront pas d’émerger à l’avenir au vu des recherches intensives dans le domaine. « Nous disposons d’une feuille de route pour améliorer encore les performances de notre DPU grâce aux travaux de recherche collaboratifs que nous menons avec l’université d’Oxford sur les techniques d’optimisation, les topologies alternatives de réseaux de neurones et les architectures sur silicium innovantes », indique Roger Fawcett, le CEO d’Omnitek.