Illustration : Flock
Des chercheurs de Google ont publié un ensemble d’algorithmes de quantification, nommé TurboQuant. Ils permettent une compression massive réduisant l’utilisation de la mémoire, notamment pour l’IA générative, alors que le prix de la RAM est dans toutes les têtes.
Le nombre de paramètres et la taille de la fenêtre contextuelle des modèles de langage (LLM) prennent une place de plus en plus importante dans leur utilisation, notamment pour traiter des quantités énormes de documents et leur permettre d’augmenter leur acuité. Mais son utilisation intensive demande une quantité importante de mémoire. L’optimisation de la compression de ces informations devient primordiale.
On vous explique...
Envie de lire la suite ?
Cet article est réservé aux abonné·es. Rejoignez-les et (re)découvrez huit titres de la presse indépendante.
Profitez de la sélection de La Presse libre
Lisez tout ce que voulez
Soutenez la presse indépendante
Déjà abonné·e ? Connectez-vous
Profitez de la sélection de La Presse libre
Lisez tout ce que voulez
Soutenez la presse indépendante
Déjà abonné·e ? Connectez-vous
