2024 - Google CALM : une nouvelle technologie de modèle de langage

[ad_1]

Google a annoncé une technologie révolutionnaire appelée CALM qui accélère les grands modèles de langage (comme GPT-3 et LaMDA) sans compromettre les niveaux de performances.

De plus grandes données de formation sont meilleures mais ont un coût

Les grands modèles de langage (LLM) s’entraînent sur de grandes quantités de données.

La formation des modèles de langage sur de plus grandes quantités de données permet au modèle d’apprendre de nouvelles capacités qui ne sont pas toujours prévues.

Par exemple, l’ajout de plus de données d’apprentissage à un modèle de langage peut entraîner de manière inattendue l’acquisition de la capacité de traduire entre différentes langues, même s’il n’a pas été formé pour le faire.

Ces nouvelles capacités sont appelées capacités émergentes, des capacités qui ne sont pas nécessairement prévues.

Un autre document de recherche (PDF) sur les capacités émergentes déclare :

« Bien qu’il existe des dizaines d’exemples de capacités émergentes, il existe actuellement peu d’explications convaincantes pour expliquer pourquoi de telles capacités émergent comme elles le font. »

Ils ne peuvent pas expliquer pourquoi différentes capacités sont acquises.

Mais il est bien connu que l’augmentation de la quantité de données pour entraîner la machine lui permet d’acquérir plus de capacités.

L’inconvénient de la mise à l’échelle des données d’apprentissage est qu’il faut plus de puissance de calcul pour produire une sortie, ce qui ralentit l’IA au moment où elle génère une sortie de texte (un moment appelé «temps d’inférence»).

Ainsi, le compromis pour rendre une IA plus intelligente avec plus de données est que l’IA devient également plus lente au moment de l’inférence.

Le nouveau document de recherche de Google (Modélisation du langage adaptatif confiant PDF) décrit le problème comme suit :

« Les progrès récents des grands modèles de langage (LLM) basés sur Transformer ont conduit à des améliorations significatives des performances dans de nombreuses tâches.

Ces gains s’accompagnent d’une augmentation drastique de la taille des modèles, ce qui peut entraîner une utilisation lente et coûteuse au moment de l’inférence. »

Modélisation du langage adaptatif confiant (CALM)

Les chercheurs de Google ont trouvé une solution intéressante pour accélérer les modèles de langage tout en maintenant des performances élevées.

La solution, pour faire une analogie, est un peu comme la différence entre répondre à une question facile et résoudre une question plus difficile.

Une question facile, comme de quelle couleur est le ciel, peut être répondue avec peu de réflexion.

Mais une réponse difficile nécessite de s’arrêter et de réfléchir un peu plus pour trouver la réponse.

Sur le plan informatique, les grands modèles de langage ne font pas de distinction entre une partie difficile d’une tâche de génération de texte et une partie facile.

Ils génèrent du texte pour les parties faciles et difficiles en utilisant toute leur puissance de calcul au moment de l’inférence.

La solution de Google s’appelle Confident Adaptive Language Modeling (CALM).

Ce que fait ce nouveau cadre est de consacrer moins de ressources aux parties triviales d’une tâche de génération de texte et de consacrer toute la puissance aux parties plus difficiles.

Le document de recherche sur CALM énonce le problème et la solution comme suit :

« Les progrès récents des grands modèles de langage (LLM) basés sur Transformer ont conduit à des améliorations significatives des performances dans de nombreuses tâches.

Ces gains s’accompagnent d’une augmentation drastique de la taille des modèles, entraînant potentiellement une utilisation lente et coûteuse au moment de l’inférence.

En pratique, cependant, la série de générations constituée par les LLM est composée de différents niveaux de difficulté.

Alors que certaines prédictions bénéficient réellement de la pleine capacité des modèles, d’autres continuations sont plus triviales et peuvent être résolues avec un calcul réduit.

… Bien que les grands modèles fonctionnent mieux en général, la même quantité de calculs peut ne pas être nécessaire pour chaque entrée pour obtenir des performances similaires (par exemple, selon que l’entrée est facile ou difficile).

Qu’est-ce que Google CALM et fonctionne-t-il ?

CALM fonctionne en allouant dynamiquement des ressources en fonction de la complexité de la partie individuelle de la tâche, en utilisant un algorithme pour prédire si quelque chose a besoin de ressources complètes ou partielles.

Le document de recherche partage qu’ils ont testé le nouveau système pour diverses tâches de traitement du langage naturel (« résumé de texte, traduction automatique et réponse aux questions ») et ont découvert qu’ils étaient capables d’accélérer l’inférence d’environ un facteur de trois (300%) .

L’illustration suivante montre le bon fonctionnement du système CALM.

Les quelques zones en rouge indiquent où la machine a dû utiliser sa pleine capacité sur cette partie de la tâche.

Les zones en vert correspondent aux endroits où la machine n’a utilisé que moins de la moitié de sa capacité.

Rouge = pleine capacité/vert = moins de la moitié de la capacité

Voici ce que dit le document de recherche à propos de l’illustration ci-dessus :

« CALM accélère la génération en sortant tôt lorsque cela est possible et en utilisant de manière sélective la capacité complète du décodeur uniquement pour quelques jetons, démontré ici sur un exemple CNN/DM avec une mesure de confiance basée sur softmax. Y (1) early et Y (2) early utilisent des seuils de confiance différents pour la sortie précoce.

Ci-dessous (sic) le texte, nous rapportons la cohérence textuelle et de risque mesurée de chacun des deux résultats, ainsi que les gains d’efficacité.

Les couleurs représentent le nombre de couches de décodage utilisées pour chaque jeton – les nuances de vert clair indiquent moins de la moitié des couches totales.

Seuls quelques jetons sélectionnés utilisent la pleine capacité du modèle (colorés en rouge), tandis que pour la plupart des jetons, le modèle sort après une ou quelques couches de décodage (colorés en vert).

Les chercheurs ont conclu l’article en notant que la mise en œuvre de CALM ne nécessite que des modifications minimes afin d’adapter un grand modèle de langage pour qu’il devienne plus rapide.

Cette recherche est importante car elle ouvre la porte à la création de modèles d’IA plus complexes qui sont entraînés sur des ensembles de données beaucoup plus volumineux sans subir de ralentissement de la vitesse tout en maintenant un niveau de performance élevé.

Pourtant, il est possible que cette méthode puisse également bénéficier de grands modèles de langage qui sont également entraînés sur moins de données.

Par exemple, les modèles InstructGPT, dont ChatGPT est un modèle frère, sont formés sur environ 1,3 milliard de paramètres, mais sont toujours capables de surpasser les modèles qui sont formés sur beaucoup plus de paramètres.

Les chercheurs ont noté dans la conclusion :

« Dans l’ensemble, notre cadre de calcul adaptatif complet pour les LM nécessite des modifications minimales du modèle sous-jacent et permet des gains d’efficacité tout en satisfaisant des garanties de qualité rigoureuses pour la sortie. »

Ces informations sur ce document de recherche viennent d’être publiées sur le blog AI de Google le 16 décembre 2022. Le document de recherche lui-même est daté du 25 octobre 2022.

Il sera intéressant de voir si cette technologie fera son chemin dans les grands modèles de langage du futur proche.

Lisez le billet de blog de Google :

Accélération de la génération de texte avec Confident Adaptive Language Modeling (CALM)

Lire le document de recherche :

Modélisation du langage adaptatif confiant (PDF)

Image sélectionnée par Shutterstock/Master1305

[ad_2]

Source link -16

Meredith Marks annonce que Whitney Rose l’a bloquée sur Instagram : révélations exclusives

Le Mexique redoute une baisse des échanges avec les États-Unis et le Canada tout en cherchant à substituer les pièces chinoises.

La tragédie méconnue du Lisbon Maru : un documentaire sur la guerre du Pacifique à revoir

Jon Watts, réalisateur de ‘Wolfs’, refuse une suite à Apple par manque de confiance

Fournisseurs d’accès Internet de choix à Vancouver, Washington

Limiter les dépenses publiques : L’importance d’un contrôle de l’endettement pour l’AVS

Kyril Louis-Dreyfus : Comment l’achat de Sunderland a ravivé la passion du football dans sa famille

Suivez en direct Angleterre vs Japon : Guide pour visionner les Internationaux d’automne de rugby 2024

Fournisseurs d’accès Internet incontournables à Shreveport, Louisiane

SV Elversberg bouscule la 2. Bundesliga avec une victoire sur Fortuna Düsseldorf

Danielle Peazer, l’ex-compagne de Liam Payne, partage un message émouvant après les funérailles du chanteur de One Direction au Royaume-Uni.

Le prince Harry revient au Royaume-Uni sans Meghan Markle, qui évite le tumulte royal en raison de sa popularité en berne.

Titre : L’iMac M4 : un ordinateur avant-gardiste pour un monde en évolution

Titre : La fonctionnalité de camp de groupe dans Avowed : un hommage aux RPG emblématiques tels que Mass Effect, Dragon Age et Baldur’s Gate 3.

Lisa Barlow de RHOSLC explique les tensions avec Bronwyn Newport et la jalousie de ses co-stars envers sa marque de tequila.

Google CALM : une nouvelle technologie de modèle de langage

De plus grandes données de formation sont meilleures mais ont un coût

Modélisation du langage adaptatif confiant (CALM)

Qu’est-ce que Google CALM et fonctionne-t-il ?

Rouge = pleine capacité/vert = moins de la moitié de la capacité