Une nouvelle approche permet aux grands modèles de langage de fonctionner de manière efficace sur les PC et les appareils périphériques.
PowerInfer est un nouveau framework (ou « infrastructure logicielle » en bon français) qui allège les besoins en mémoire du processeur graphique (GPU) et réduit le brassage des données entre le processeur et le GPU.
Pour y parvenir, il ne charge sur le GPU qu’un petit groupe de neurones les plus activés, appelés hot neurons (littéralement « neurones chauds » en français), pour un accès rapide. Les autres cold neurons (de même, « neurones froids ») ne sont activés qu’en fonction d’invites d’entrée spécifiques.
PowerInfer parvient ainsi à générer en moyenne 13 jetons par seconde, avec un pic de 29 jetons/seconde sur les GPU grand public. Ce taux n’est que de 18 % inférieur à celui d’un GPU A100 haut de gamme de qualité serveur.
Il s’agit là d’une excellente nouvelle pour les concepteurs et les chercheurs en IA qui disposent désormais d’une performance de niveau serveur à portée de main en cas de pénurie de GPU.
Publication https://lnkd.in/ghbPdXZy
Rejoignez des milliers de chercheurs et d’ingénieurs de réputation mondiale de Google, Stanford, OpenAI et Meta pour rester à la pointe de l’IA http://aitidbits.ai