GPT-4 pourrait bien être un gâchis gonflé et inutile


En règle générale, faire la promotion de quelque chose qui n’existe pas encore est beaucoup plus facile que de faire la promotion de quelque chose qui existe. Le modèle de langage GPT-4 d’OpenAI, très attendu ; pas encore publié – a fait l’objet de spéculations absurdes et incontrôlées ces derniers mois. Un message qui a largement circulé en ligne prétend démontrer son pouvoir extraordinaire. Une illustration montre un petit point représentant GPT-3 et ses « 175 milliards de paramètres ». À côté se trouve un cercle beaucoup plus grand représentant GPT-4, avec 100 mille milliards paramètres. Le nouveau modèle, un évangéliste tweeté, « fera ressembler ChatGPT à un jouet ». « Attachez-vous, » tweeté un autre.

Un problème avec ce battage médiatique est qu’il est factuellement inexact. Quelle que soit l’origine de la rumeur de 100 000 milliards de paramètres, le PDG d’OpenAI, Sam Altman, a déclaré que c’était « des conneries complètes ». Un autre problème est qu’il élude une question plus profonde et finalement beaucoup plus conséquente pour l’avenir de la recherche sur l’IA. Implicite dans l’illustration (ou du moins dans la façon dont les gens semblent l’avoir interprétée) est l’hypothèse que plus de paramètres – c’est-à-dire plus de boutons qui peuvent être ajustés pendant le processus d’apprentissage afin d’affiner la sortie du modèle – conduit toujours à plus d’intelligence. La technologie continuera-t-elle à s’améliorer indéfiniment alors que de plus en plus de données sont entassées dans sa gueule ? En matière d’IA, à quel point la taille compte-t-elle ?

Cela fait l’objet d’intenses débats parmi les experts. D’un côté, vous avez les soi-disant maximalistes de mise à l’échelle. Raphaël Millière, un philosophe de l’Université de Columbia dont les travaux portent sur l’IA et les sciences cognitives, a inventé le terme pour désigner le groupe le plus optimiste quant au potentiel de transformation de la montée en puissance. Leur idée de base est que la structure des technologies existantes sera suffisante pour produire une IA avec une véritable intelligence (quelle que soit votre interprétation) ; tout ce qui est nécessaire à ce stade est de créer cette structure plus gros—en multipliant le nombre de paramètres et en pelletant de plus en plus de données. Nando de Freitas, directeur de recherche chez DeepMind, a incarné le poste l’année dernière lorsqu’il tweeté, « C’est une question d’échelle maintenant ! Le jeu est terminé! » (Il a continué, de manière confuse, à énumérer plusieurs autres façons dont il pense que les modèles doivent s’améliorer ; DeepMind a refusé de mettre de Freitas à disposition pour une interview.)

L’idée que le simple fait de gonfler un modèle le dotera de capacités fondamentalement nouvelles peut sembler ridicule à première vue, et même il y a quelques années, m’a dit Millière, les experts étaient à peu près d’accord pour dire que c’était le cas. « C’était autrefois un point de vue qui aurait été considéré comme peut-être ridicule ou du moins extrêmement optimiste », a-t-il déclaré. « La fenêtre d’Overton a changé parmi les chercheurs en IA. » Et non sans raison : la mise à l’échelle, les chercheurs en intelligence artificielle ont découvert, non seulement affine les capacités que les modèles de langage possèdent déjà – rendre les conversations plus naturelles, par exemple – mais aussi, apparemment de nulle part, en débloque de nouvelles. Les modèles surdimensionnés ont acquis la capacité soudaine de faire de l’arithmétique à trois chiffres, de détecter les erreurs logiques, de comprendre la microéconomie du lycée et de lire le farsi. Alex Dimakis, informaticien à l’Université du Texas à Austin et codirecteur de l’Institute for Foundations of Machine Learning, m’a dit qu’il était devenu « beaucoup plus un maximaliste de mise à l’échelle » après avoir vu toutes les façons dont GPT-3 a dépassé les modèles précédents. « Je peux voir comment on pourrait regarder cela et penser, D’accord, si c’est le cas, peut-être que nous pouvons continuer à évoluer indéfiniment et nous éliminerons tous les obstacles restants sur la voie de l’intelligence au niveau humain», a déclaré Millière.

Ses sympathies vont à la partie opposée dans le débat. Pour ceux du camp des sceptiques à l’échelle, la position maximaliste est une pensée magique. Leurs premières objections sont pratiques : plus un modèle de langage est grand, plus il faut de données pour le former, et nous pourrions bien manquer de texte publié de haute qualité qui peut être introduit dans le modèle bien avant que nous n’atteignions quoi que ce soit de proche de ce que envisagent les maximalistes. Ce que cela signifie, m’a dit l’informaticien de l’Université de l’Alberta Rich Sutton, c’est que les modèles de langage ne sont que « faiblement évolutifs ». (La puissance de calcul pourrait également devenir un facteur limitant, bien que la plupart des chercheurs trouvent cette perspective moins préoccupante.)

Il peut y avoir des moyens d’extraire plus de matériel qui peut être introduit dans le modèle. Nous pourrions transcrire toutes les vidéos sur YouTube, ou enregistrer les frappes au clavier des employés de bureau, ou capturer les conversations quotidiennes et les convertir en écriture. Mais même dans ce cas, disent les sceptiques, les types de grands modèles de langage qui sont actuellement utilisés seraient toujours en proie à des problèmes. Ils inventent constamment des choses. Ils luttent avec le raisonnement de bon sens. Leur formation se fait presque entièrement à l’avance, rien à voir avec la psychologie d’apprentissage au fur et à mesure que vous vivez des humains et des autres animaux, ce qui rend les modèles difficiles à mettre à jour de manière substantielle. Il n’y a aucune raison particulière de supposer que la mise à l’échelle résoudra ces problèmes. « Cela ne s’est pas amélioré autant qu’on pourrait l’espérer », m’a dit Ernest Davis, professeur d’informatique à l’Université de New York. « Il n’est pas du tout clair pour moi que n’importe quelle quantité de mise à l’échelle réalisable vous y mènera. » Il n’est même pas clair, d’ailleurs, qu’une IA purement basée sur le langage puisse jamais reproduire quoi que ce soit comme l’intelligence humaine. Parler et penser ne sont pas la même chose, et la maîtrise du premier ne garantit en rien la maîtrise du second. Peut-être que l’intelligence au niveau humain nécessite également des données visuelles ou des données audio ou même une interaction physique avec le monde lui-même via, par exemple, un corps robotique.

Bien que ce soient des arguments convaincants, la mise à l’échelle du maximalisme est devenue une sorte d’homme de paille pour les sceptiques de l’IA, m’a dit Millière. Certains experts ont exprimé une foi plus mesurée dans la puissance de la mise à l’échelle. Sutton, par exemple, a fait valoir que de nouveaux modèles seront nécessaires pour résoudre les problèmes des modèles actuels, mais aussi que ces nouveaux modèles doivent être encore plus évolutifs que leurs prédécesseurs pour atteindre une intelligence de niveau humain. En fait, relativement peu de chercheurs dans le domaine souscrivent à une position plus extrême. Dans une enquête auprès de la communauté du traitement du langage naturel, les scientifiques des données ont découvert qu’à leur grande surprise, les chercheurs surestimaient largement le soutien de leurs pairs à l’idée que « la mise à l’échelle résout pratiquement tous les problèmes importants ». En moyenne, ils ont prédit que près de la moitié de leurs collègues souscrivaient à ce point de vue ; en fait, seulement 17 % l’ont fait. Une foi inébranlable dans le pouvoir de la mise à l’échelle n’est en aucun cas le dogme dominant, mais pour une raison quelconque, les experts penser c’est.

De cette façon, le débat sur la mise à l’échelle est représentatif du discours plus large sur l’IA. C’est comme si les extrêmes vocaux avaient noyé la majorité. Soit ChatGPT va complètement remodeler notre monde, soit c’est un grille-pain glorifié. Les boosters colportent leur battage médiatique à 100 preuves, les détracteurs répondent avec un pessimisme plombé, et le reste d’entre nous s’assied tranquillement quelque part au milieu, essayant de donner un sens à ce nouveau monde étrange.





Source link -30