GPT-4 a la mémoire d’un poisson rouge


À ce stade, les nombreux défauts des modèles de langage basés sur l’IA ont été analysés à mort – leur malhonnêteté incorrigible, leur capacité de partialité et de sectarisme, leur manque de bon sens. Le GPT-4, le modèle de ce type le plus récent et le plus avancé à ce jour, est déjà soumis au même examen minutieux, et il semble toujours avoir des ratés à peu près de la même manière que les modèles précédents. Mais les grands modèles de langage ont une autre lacune qui a jusqu’à présent reçu relativement peu d’attention : leur rappel de mauvaise qualité. Ces programmes de plusieurs milliards de dollars, qui nécessitent l’énergie de plusieurs pâtés de maisons pour fonctionner, peuvent désormais être en mesure de coder des sites Web, de planifier des vacances et de rédiger des e-mails à l’échelle de l’entreprise dans le style de William Faulkner. Mais ils ont la mémoire d’un poisson rouge.

Demandez à ChatGPT « De quelle couleur est le ciel par une journée ensoleillée et sans nuages ? » et il formulera une réponse en déduisant une séquence de mots susceptibles de venir ensuite. Il répond donc : « Par une journée ensoleillée et sans nuages, la couleur du ciel est généralement d’un bleu profond. » Si vous répondez ensuite, « Que diriez-vous d’un jour couvert ? Cette capacité à mémoriser et à contextualiser les entrées est ce qui donne à ChatGPT la possibilité de poursuivre un semblant de conversation humaine réelle plutôt que de simplement fournir des réponses ponctuelles comme une balle Magic 8 gonflée.

Le problème est que la mémoire de ChatGPT – et la mémoire des grands modèles de langage plus généralement – est terrible. Chaque fois qu’un modèle génère une réponse, il ne peut prendre en compte qu’une quantité limitée de texte, appelée fenêtre de contexte du modèle. ChatGPT a une fenêtre contextuelle d’environ 4 000 mots, suffisamment longue pour que la personne moyenne qui s’en mêle ne s’en aperçoive jamais, mais suffisamment courte pour rendre toutes sortes de tâches complexes impossibles. Par exemple, il ne serait pas en mesure de résumer un livre, de passer en revue un projet de codage majeur ou de rechercher dans votre Google Drive. (Techniquement, les fenêtres de contexte ne sont pas mesurées en mots mais en jetonsune distinction qui devient plus importante lorsqu’il s’agit d’entrées visuelles et linguistiques.)

Pour une illustration vivante de la façon dont cela fonctionne, dites votre nom à ChatGPT, collez environ 5 000 mots absurdes dans la zone de texte, puis demandez quel est votre nom. Vous pouvez même dire explicitement : « Je vais vous dire 5 000 mots de bêtises, puis vous demander mon nom. Ignorez le non-sens; tout ce qui compte, c’est de se souvenir de mon nom. Cela ne fera aucune différence. ChatGPT ne s’en souviendra pas.

Avec GPT-4, la fenêtre contextuelle a été augmentée à environ 8 000 mots, soit autant que ceux qui seraient prononcés en environ une heure de conversation en face à face. Une version lourde du logiciel qu’OpenAI n’a pas encore rendue publique peut gérer 32 000 mots. C’est la mémoire la plus impressionnante jamais réalisée par un transformateur, le type de réseau neuronal sur lequel tous les grands modèles de langage les plus impressionnants sont désormais basés, déclare Raphaël Millière, un philosophe de l’Université de Columbia dont les travaux portent sur l’IA et les sciences cognitives. De toute évidence, OpenAI a fait de l’élargissement de la fenêtre contextuelle une priorité, étant donné que l’entreprise a consacré toute une équipe à la question. Mais comment exactement cette équipe a réussi l’exploit est un mystère; OpenAI n’a divulgué pratiquement rien sur le fonctionnement interne de GPT-4. Dans le rapport technique publié en même temps que le nouveau modèle, la société a justifié son secret en faisant appel au « paysage concurrentiel » et aux « implications de sécurité » de l’IA. Lorsque j’ai demandé un entretien avec les membres de l’équipe de la fenêtre contextuelle, OpenAI n’a pas répondu à mon e-mail.

Malgré toute l’amélioration de sa mémoire à court terme, GPT-4 ne peut toujours pas conserver les informations d’une session à l’autre. Les ingénieurs pourraient rendre la fenêtre de contexte deux ou trois fois ou 100 fois plus grande, et ce serait toujours le cas : chaque fois que vous entamiez une nouvelle conversation avec GPT-4, vous repartiriez de zéro. Une fois démarré, il renaît. (Ça ne ressemble pas à un très bon thérapeute.)

Mais même sans résoudre ce problème plus profond de mémoire à long terme, il n’est pas facile d’allonger la fenêtre contextuelle. Au fur et à mesure que les ingénieurs l’étendent, m’a dit Millière, la puissance de calcul requise pour exécuter le modèle de langage – et donc son coût de fonctionnement – augmente de façon exponentielle. La capacité mémoire totale d’une machine est également une contrainte, selon Alex Dimakis, informaticien à l’Université du Texas à Austin et codirecteur de l’Institute for Foundations of Machine Learning. Aucun ordinateur existant aujourd’hui, m’a-t-il dit, ne pourrait prendre en charge, disons, une fenêtre contextuelle d’un million de mots.

Certains développeurs d’IA ont étendu les fenêtres contextuelles des modèles de langage grâce à l’utilisation de solutions de contournement. Dans une approche, le modèle est programmé pour maintenir un résumé de travail de chaque conversation. Supposons que le modèle ait une fenêtre contextuelle de 4 000 mots et que votre conversation s’étende sur 5 000 mots. Le modèle répond en enregistrant un résumé de 100 mots des 1 100 premiers mots pour sa propre référence, puis se souvient de ce résumé ainsi que des 3 900 mots les plus récents. Au fur et à mesure que la conversation s’allonge, le modèle met continuellement à jour son résumé – une solution intelligente, mais plus un pansement qu’une solution. Au moment où votre conversation atteint 10 000 mots, le résumé de 100 mots serait chargé de capturer les 6 100 premiers d’entre eux. Forcément, il en omettra beaucoup.

D’autres ingénieurs ont proposé plus complexe correctifs pour le problème de mémoire à court terme, mais aucun d’entre eux ne résout le problème de redémarrage. Cela, m’a dit Dimakis, nécessitera probablement un changement plus radical dans la conception, peut-être même un abandon total de l’architecture du transformateur sur laquelle chaque modèle GPT a été construit. Le simple fait d’agrandir la fenêtre de contexte ne fera pas l’affaire.

Le problème, à la base, n’est pas vraiment un problème de mémoire mais un problème de discernement. L’esprit humain est capable de trier l’expérience en catégories : nous nous souvenons (principalement) des choses importantes et oublions (principalement) les océans d’informations non pertinentes qui nous submergent chaque jour. Les grands modèles de langage ne font pas de distinction. Ils n’ont aucune capacité de triage, aucune capacité à distinguer les déchets de l’or. « Un transformateur garde tout », m’a dit Dimakis. « Il traite tout comme important. » En ce sens, le problème n’est pas que les grands modèles de langage ne peuvent pas se souvenir ; c’est qu’ils ne savent pas quoi oublier.





Source link -30