Ne vous laissez pas tromper par le cadeau de Gab de GPT-4


Il s’agit d’une édition de L’Atlantique Quotidiennement, une newsletter qui vous guide à travers les plus grandes histoires de la journée, vous aide à découvrir de nouvelles idées et vous recommande le meilleur de la culture. Inscrivez-vous ici.

Hier, pas quatre mois après avoir dévoilé l’IA génératrice de texte ChatGPT, OpenAI a lancé sa dernière merveille d’apprentissage automatique : GPT-4. Le nouveau modèle de grande langue (LLM) sélectionne des tests standardisés, fonctionne dans toutes les langues et peut même détecter le contenu des images. Mais est-ce que GPT-4 intelligent?

Tout d’abord, voici trois nouvelles histoires de L’Atlantique:


Un enfant bavard

Avant d’entrer dans la nouvelle merveille de robot d’OpenAI, une histoire personnelle rapide.

En tant qu’élève du secondaire étudiant pour mes examens d’entrée à l’université il y a environ deux décennies, j’ai absorbé quelques anecdotes de mon CD-ROM de préparation aux tests : les tests standardisés tels que le SAT et l’ACT ne mesurent pas votre intelligence, ou même ce que vous savez. Au lieu de cela, ils sont conçus pour évaluer vos performances sur un ensemble spécifique de tâches, c’est-à-dire sur les examens eux-mêmes. En d’autres termes, comme je l’ai glané auprès des gens sympathiques de Kaplan, ce sont des tests pour tester comment vous testez.

Je partage cette anecdote non seulement parce que, comme cela a été largement rapporté, GPT-4 a obtenu un score supérieur à 90 % des candidats à un examen simulé du barreau et a obtenu un 710 sur 800 dans la section lecture et écriture du SAT. Au contraire, il fournit un exemple de la façon dont la maîtrise de certaines catégories de tâches peut facilement être confondue avec une maîtrise ou une compétence plus large. Cette idée fausse a bien fonctionné pour moi, adolescente, une étudiante médiocre qui s’est néanmoins frayé un chemin dans une université respectable sur les mérites de quelques crams.

Mais tout comme les tests ne sont pas des indicateurs fiables de l’aptitude scolaire, la facilité de GPT-4 avec les mots et la syntaxe n’équivaut pas nécessairement à l’intelligence, simplement à une capacité de raisonnement et de pensée analytique. Qu’est-ce que c’est fait révèlent à quel point il peut être difficile pour les humains de faire la différence.

« Même si les LLM sont excellents pour produire des copies passe-partout, de nombreux critiques disent qu’ils ne comprennent fondamentalement pas et ne peuvent peut-être pas comprendre le monde », a écrit hier mon collègue Matteo Wong. « Ils sont quelque chose comme l’auto-complétion sur PCP, un médicament qui donne aux utilisateurs un faux sentiment d’invincibilité et des capacités accrues d’illusion. »

À quel point ce sentiment d’invincibilité est-il faux, pourriez-vous demander? Tout à fait, comme même OpenAI l’admettra.

« Il convient d’être très prudent lors de l’utilisation des sorties de modèles de langage, en particulier dans des contextes à enjeux élevés », ont averti hier les représentants d’OpenAI dans un article de blog annonçant l’arrivée de GPT-4.

Bien que le nouveau modèle ait une telle facilité avec le langage que, comme le notait hier l’écrivain Stephen Marche dans L’Atlantique, il peut générer un texte pratiquement impossible à distinguer de celui d’un professionnel humain, ses bloviations à l’invite de l’utilisateur ne sont pas nécessairement profondes, et encore moins vraies. Comme d’autres modèles de grande langue avant lui, GPT-4 «  » hallucine « les faits et fait des erreurs de raisonnement », selon le blog d’OpenAI. Les générateurs de texte prédictifs proposent des choses à dire en fonction de la probabilité qu’une combinaison donnée de modèles de mots se réunisse en relation avec l’invite d’un utilisateur, et non comme le résultat d’un processus de pensée.

Mon partenaire a récemment trouvé un euphémisme astucieux pour ce que cela signifie dans la pratique : l’IA a appris le don du bavardage. Et il est très difficile de ne pas être séduit par de tels éclats apparemment improvisés de conversation articulée et syntaxiquement saine, quelle que soit leur source (sans parler de leur exactitude factuelle). Nous avons tous été éblouis à un moment ou à un autre par un tout-petit précoce et bavard, ou momentanément influencés par l’affirmation gonflée du langage des affaires.

Il y a un degré auquel la plupart, sinon la totalité, d’entre nous confondent instinctivement la confiance rhétorique – une manière avec les mots – avec l’intelligence globale. Comme l’écrit Matteo, « Cette croyance sous-tendait le célèbre jeu d’imitation d’Alan Turing, maintenant connu sous le nom de test de Turing, qui jugeait l’intelligence informatique en fonction de la « humanité » de sa lecture textuelle. »

Mais, comme tous ceux qui ont déjà dit des conneries à un essai universitaire ou écouté un échantillon aléatoire de TED Talks peuvent certainement en témoigner, Parlant n’est pas le même que pensée. La capacité de faire la distinction entre les deux est importante, d’autant plus que la révolution LLM s’accélère.

Il convient également de rappeler qu’Internet est un endroit étrange et souvent sinistre, et ses crevasses les plus sombres contiennent une partie de la matière première qui entraîne GPT-4 et des outils d’IA similaires. Comme Matteo l’a détaillé hier :

Le chatbot original de Microsoft, nommé Tay et sorti en 2016, est devenu misogyne et raciste, et a été rapidement abandonné. L’année dernière, l’IA BlenderBot de Meta a relancé les conspirations antisémites, et peu de temps après, le Galactica de la société – un modèle destiné à aider à la rédaction d’articles scientifiques – s’est avéré préjudiciable et enclin à inventer des informations (Meta l’a retiré en trois jours) . GPT-2 a montré des préjugés contre les femmes, les homosexuels et d’autres groupes démographiques ; GPT-3 a dit des choses racistes et sexistes ; et ChatGPT a été accusé de faire des commentaires tout aussi toxiques. OpenAI a essayé et échoué à résoudre le problème à chaque fois. New Bing, qui gère une version de GPT-4, a écrit sa propre part de textes dérangeants et offensants – enseignant aux enfants des insultes ethniques, promouvant des slogans nazis, inventant des théories scientifiques.

La dernière technologie LLM est certainement intelligente, même si elle est discutable. Ce qui devient clair, c’est que ceux d’entre nous qui choisissent d’utiliser ces programmes devront être les deux.

En rapport:


Nouvelles d’aujourd’hui
  1. Un juge fédéral du Texas a entendu une affaire qui conteste l’approbation par le gouvernement américain de l’un des médicaments utilisés pour les avortements médicamenteux.
  2. Le cours de l’action du Credit Suisse est tombé à un niveau record, ce qui a incité la Banque nationale suisse à promettre un soutien financier si nécessaire.
  3. Le général Mark Milley, président des chefs d’état-major interarmées, a déclaré que le crash d’un drone américain au-dessus de la mer Noire résultait d’une récente augmentation des « actions agressives » de la Russie.

Dépêches

Découvrez toutes nos newsletters ici.


Lecture du soir
Arsh Raziuddin / L’Atlantique

La vengeance de Nora Ephron

Par Sophie Gilbert

Au cours des 40 années écoulées depuis Brûlures d’estomac a été publié, il y a eu deux manières distinctes de le lire. Le roman de Nora Ephron de 1983 est raconté par une écrivaine gastronomique, Rachel Samstat, qui découvre que son estimé mari journaliste a une liaison avec Thelma Rice, « une personne assez grande avec un cou aussi long qu’un bras et un nez aussi long qu’un pouce ». et vous devriez voir ses jambes, sans parler de ses pieds, qui sont en quelque sorte écartés. Pris au pied de la lettre, le livre est une satire triomphante – de l’amour ; de Washington, DC; de thérapie; de chroniqueurs pompeux ; du genre d’hommes qui se considèrent comme des partenaires exemplaires mais qui laissent leurs femmes, enceintes de sept mois et avec un bambin en remorque, naviguer dans un aéroport pendant qu’ils achètent paresseusement des magazines. (En mettant de côté l’infidélité pour un moment, c’était la partie où je croyais personnellement que le mariage de Rachel était passé.)

Malheureusement, les personnes satirisées avaient quelques objections, ce qui nous amène à la deuxième façon de lire Brûlures d’estomac: comme un fait historique déformé à travers une lentille vengeresse, d’autant plus saillante pour ses bavures. Ephron, comme Rachel, avait en effet été marié à un journaliste de haut niveau de Washington, le journaliste du Watergate Carl Bernstein. Bernstein, comme le mari de Rachel – qu’Ephron a nommé Mark Feldman dans ce que beaucoup devinaient être une allusion à la véritable identité de Deep Throat – avait en effet eu une liaison avec une personne de grande taille (et une future paire travailliste), Margaret Jay. Ephron, comme Rachel, était très enceinte lorsqu’elle a découvert l’affaire. Et pourtant, en écrivant sur ce qui lui était arrivé, Ephron a été présentée comme le méchant par un écosystème médiatique indigné que quelqu’un ait osé révéler ses propres secrets, alors même qu’il déterrait ceux de tous les autres.

Lisez entièrement l’article.

Plus de L’Atlantique


Pause culturelle
Ted Lasso
Colin Hutton/Apple TV+

Lire. Amorcéd’Alissa Quart, défie l’obsession de notre nation pour l’autonomie.

Montre. Le premier épisode de Ted Lassola troisième saison de, sur AppleTV+.

Jouez à nos mots croisés quotidiens.


PS

« Tout le monde fait semblant. Et tout est plus que nous ne pouvons jamais en voir. Ainsi se conclut le atlantique la méditation de 2012 du contributeur Ian Bogost sur l’héritage durable de feu l’informaticien britannique Alan Turing. L’histoire d’Ian sur l’empreinte indomptable de Turing vaut la peine d’être revisitée cette semaine.

-Kelli


Isabel Fattal a contribué à cette newsletter.



Source link -30