Make this article seo compatible,Let there be subheadings for the article, be in french, create at least 700 wordsLa semaine dernière, lors de la conférence annuelle de Google consacrée aux nouveaux produits et technologies, la société a annoncé une modification de son premier produit d’IA : le chatbot Bard, comme le GPT-4 d’OpenAI, sera bientôt capable de décrire des images. Bien que cela puisse sembler être une mise à jour mineure, l’amélioration fait partie d’une révolution silencieuse dans la façon dont les entreprises, les chercheurs et les consommateurs développent et utilisent l’IA – poussant la technologie non seulement au-delà du remixage du langage écrit et dans différents médias, mais vers l’objectif plus noble de une compréhension riche et approfondie du monde. ChatGPT a six mois et commence déjà à paraître obsolète.Ce programme et ses cousins, connus sous le nom de grands modèles de langage, miment l’intelligence en prédisant quels mots sont statistiquement susceptibles de se suivre dans une phrase. Les chercheurs ont formé ces modèles sur toujours plus de texte – à ce stade, tous les livres et plus encore – avec la prémisse que l’alimentation forcée des machines avec plus de mots dans différentes configurations donnera de meilleures prédictions et des programmes plus intelligents. Cette approche textuelle du développement de l’IA domine depuis des années, en particulier parmi les produits d’entreprise les plus destinés au public.Mais les modèles uniquement linguistiques tels que le ChatGPT original cèdent désormais la place à des machines qui peuvent également traiter des images, du son et même des données sensorielles provenant de robots. La nouvelle approche pourrait refléter une compréhension plus humaine de l’intelligence, une première tentative d’approximation de la façon dont un enfant apprend en existant et en observant le monde. Cela pourrait également aider les entreprises à créer une IA capable de faire plus de choses et donc d’être intégrée à plus de produits.GPT-4 et Bard ne sont pas les seuls programmes dotés de ces capacités étendues. La semaine dernière également, Meta a publié un programme appelé ImageBind qui traite du texte, des images, de l’audio, des informations sur la profondeur, le rayonnement infrarouge et des informations sur le mouvement et la position. Le récent PaLM-E de Google a été formé à la fois sur le langage et sur les données sensorielles des robots, et la société a taquiné un nouveau modèle plus puissant qui va au-delà du texte. Microsoft a son propre modèle, qui a été formé sur des mots et des images. Les générateurs de texte en image tels que DALL-E 2, qui ont captivé Internet l’été dernier, sont entraînés sur des images sous-titrées.Celles-ci sont connues sous le nom de multimodal modèles – le texte est une modalité, les images une autre – et de nombreux chercheurs espèrent qu’ils porteront l’IA vers de nouveaux sommets. L’avenir le plus grandiose est celui dans lequel l’IA ne se limite pas à écrire des essais stéréotypés et à aider les gens dans Slack ; il serait capable de rechercher sur Internet sans inventer, d’animer une vidéo, de guider un robot ou de créer un site Web par lui-même (comme GPT-4 l’a fait dans une démonstration, basée sur un concept lâche esquissé par un humain).Lire : ChatGPT a tout changé. Maintenant, sa suite est ici.Une approche multimodale pourrait théoriquement résoudre un problème central avec les modèles uniquement linguistiques : même s’ils peuvent facilement lier des mots ensemble, ils ont du mal à relier ces mots à des concepts, des idées, des objets ou des événements. « Quand ils parlent d’un embouteillage, ils n’ont aucune expérience des embouteillages au-delà de ce qu’ils y ont associé à partir d’autres morceaux de langage », Melanie Mitchell, chercheuse en intelligence artificielle et scientifique cognitive au Santa Fe Institute, m’a dit, mais si les données d’entraînement d’une IA pouvaient inclure des vidéos d’embouteillages, « il y a beaucoup plus d’informations qu’elles peuvent glaner ». Apprendre à partir de plus de types de données pourrait aider les modèles d’IA à imaginer et à interagir avec les environnements physiques, à développer quelque chose qui se rapproche du bon sens et même à résoudre les problèmes de fabrication. Si un modèle comprend le monde, il pourrait être moins susceptible d’inventer des choses à son sujet.La poussée des modèles multimodaux n’est pas entièrement nouvelle ; Google, Facebook et d’autres ont introduit des systèmes automatisés de sous-titrage d’images il y a près de dix ans. Mais quelques changements clés dans la recherche sur l’IA ont rendu les approches inter-domaines plus possibles et prometteuses au cours des dernières années, m’a dit Jing Yu Koh, qui étudie l’IA multimodale à Carnegie Mellon. Alors que pendant des décennies, les domaines de l’informatique tels que le traitement du langage naturel, la vision par ordinateur et la robotique utilisaient des méthodes extrêmement différentes, ils utilisent désormais tous une méthode de programmation appelée « apprentissage en profondeur ». En conséquence, leur code et leurs approches sont devenus plus similaires et leurs modèles sont plus faciles à intégrer les uns aux autres. Et les géants de l’Internet tels que Google et Facebook ont conservé des ensembles de données d’images et de vidéos de plus en plus volumineux, et les ordinateurs deviennent suffisamment puissants pour les gérer.Il y a aussi une raison pratique au changement. Internet, aussi incompréhensible qu’il puisse paraître, contient une quantité finie de texte sur laquelle l’IA doit s’entraîner. Et il y a une limite réaliste à la taille et à la lourdeur de ces programmes, ainsi qu’à la puissance de calcul qu’ils peuvent utiliser, m’a dit Daniel Fried, informaticien à Carnegie Mellon. Les chercheurs « commencent à aller au-delà du texte pour, espérons-le, rendre les modèles plus performants avec les données qu’ils peuvent collecter ». En effet, Sam Altman, PDG d’OpenAI et, en partie grâce au témoignage du Sénat de cette semaine, une sorte d’affiche pour l’industrie, a déclaré que l’ère de la mise à l’échelle des modèles textuels est probablement révolue, quelques mois seulement après que ChatGPT soit devenu le plus rapide. -application grand public croissante dans l’histoire.Dans quelle mesure l’IA multimodale comprendra-t-elle mieux le monde que ChatGPT, et dans quelle mesure son langage sera-t-il plus fluide, le cas échéant, est à débattre. Bien que beaucoup affichent de meilleures performances par rapport aux programmes uniquement linguistiques, en particulier dans les tâches impliquant des images et des scénarios 3D, telles que la description de photos et la visualisation du résultat d’une phrase, dans d’autres domaines, ils n’ont pas été aussi stellaires. Dans le rapport technique accompagnant GPT-4, les chercheurs d’OpenAI n’ont signalé pratiquement aucune amélioration des performances des tests standardisés lorsqu’ils ont ajouté la vision. Le modèle continue également d’halluciner – en faisant avec confiance de fausses déclarations absurdes, subtilement fausses ou tout simplement méprisables. Le PaLM-E de Google l’a fait pire sur les tâches linguistiques que le modèle PaLM uniquement linguistique, peut-être parce que l’ajout des informations sensorielles du robot s’est soldé par la perte d’une partie du langage dans ses données et capacités d’entraînement. Pourtant, une telle recherche en est à ses débuts, a déclaré Fried, et pourrait s’améliorer dans les années à venir.Nous restons loin de tout ce qui imiterait vraiment la façon dont les gens pensent. « Que ces modèles atteignent l’intelligence au niveau humain, je pense que ce n’est pas probable, étant donné les types d’architectures qu’ils utilisent actuellement », m’a dit Mitchell. Même si un programme tel que Meta’s ImageBind peut traiter des images et du son, les humains apprennent également en interagissant avec d’autres personnes, ont une mémoire à long terme et grandissent à partir de l’expérience, et sont les produits de millions d’années d’évolution – pour ne citer que quelques façons l’intelligence artificielle et organique ne s’alignent pas.Lire : La recherche par IA est un désastreEt tout comme la diffusion de plus de données textuelles sur les modèles d’IA n’a pas résolu les problèmes de longue date de biais et de fabrication, la diffusion de plus les types des données sur les machines ne le fera pas nécessairement non plus. Un programme qui ingère non seulement du texte biaisé mais aussi des images biaisées produira toujours des sorties nuisibles, juste sur plus de médias. Il a été démontré que des modèles de texte à image comme Stable Diffusion, par exemple, perpétuent des préjugés racistes et sexistes, comme l’association de visages noirs avec le mot voyou. Les infrastructures opaques et les ensembles de données de formation rendent difficile la réglementation et l’audit du logiciel ; la possibilité de violations du travail et du droit…
Source link -57