Anthropic a lancé la mise à jour Claude 3.5 Sonnet, qui améliore les capacités de codage et introduit une fonctionnalité appelée « Computer Use », permettant à l’IA d’interagir avec des ordinateurs comme un humain. Bien que cette version présente d’importantes avancées, des limitations persistent, avec des problèmes d’exécution lors des interactions. L’accès public au modèle soulève des préoccupations sur la sécurité, mais Anthropic estime que les bénéfices d’observation des performances l’emportent sur les risques.
Essentiel à Retenir
Le domaine de l’intelligence artificielle générative évolue, dépassant la simple création d’images et de textes. Anthropic a lancé des mises à jour pour son modèle Claude, incluant une version améliorée appelée Claude 3.5 Sonnet et un nouveau modèle, Claude 3.5 Haiku. Cette dernière itération apporte des capacités de codage améliorées et bénéficie d’un partage de performances similaire au Claude 3 Opus LLM d’Anthropic.
Une des fonctions les plus intrigantes est la nouvelle capacité « Computer Use », actuellement en version bêta ouverte. Grâce à l’API, les développeurs peuvent guider Claude pour qu’il utilise des ordinateurs comme un humain, en interagissant avec l’écran, déplaçant un curseur, cliquant sur des boutons et tapant du texte. Claude 3.5 Sonnet devient ainsi le premier modèle d’intelligence artificielle accessible au public capable d’effectuer de telles actions.
Anthropic reconnaît que les utilisateurs pourraient rencontrer divers problèmes lors de l’interaction avec le modèle. Des entreprises comme Asana, Canva, Cognition, DoorDash, Replit et The Browser Company exploitent ces avancées pour optimiser des processus souvent longs et complexes. Par exemple, Replit utilise les capacités de Claude 3.5 Sonnet pour développer une fonctionnalité essentielle qui évalue les applications en construction pour leur produit, Replit Agent.
La version améliorée de Claude 3.5 Sonnet est accessible via l’API d’Anthropic, Amazon Bedrock et Google Cloud’s Vertex AI. Anthropic prévoit de lancer Claude 3.5 Haiku dans les mois à venir.
Selon des tests comparatifs, Claude 3.5 Sonnet affiche des performances de codage nettement supérieures. Par exemple, son score sur le banc SWE Verified a bondi de 33,4 % à 49,0 %, le plaçant au-dessus d’autres modèles d’IA, comme ceux d’OpenAI, tout en maintenant un coût et une vitesse équivalents à ceux de son prédécesseur.
Le PDG de NVIDIA a évoqué que l’avenir du codage pourrait être en péril face à l’essor de l’intelligence artificielle.
Ce modèle a la capacité de corriger ses erreurs en tentant à nouveau lorsqu’il constate une difficulté, ce qui le différencie de la sortie qu’il cherche à obtenir.
Les Agents d’IA : Une Approche Précautionneuse
Bien que les améliorations soient notables, Claude 3.5 Sonnet n’a réussi qu’à répondre à moins de la moitié des tâches dans une évaluation dédiée à sa capacité à modifier des réservations de vol. Il a rencontré des échecs dans environ un tiers des tentatives de traitement des retours.
Salesforce a affirmé avoir l’ambition de surpasser Microsoft dans le secteur de l’IA.
Anthropic a également noté que le modèle éprouve des difficultés à gérer le zoom et le défilement, ce qui peut entraîner des omissions de notifications importantes à cause de la manière dont il interprète les captures d’écran. « L’utilisation de l’ordinateur par Claude est souvent lente et sujette à des erreurs », précise l’entreprise.
L’entreprise admet que rendre ce modèle accessible au grand public comporte des risques considérables, mais elle soutient que les bénéfices d’observer son utilisation l’emportent sur les dangers potentiels.
Selon Anthropic :
« Nous pensons qu’il est préférable d’accorder aux modèles actuels, plus limités et relativement sûrs, un accès à l’utilisation des ordinateurs. Cela nous permet de commencer à identifier et à résoudre les problèmes qui pourraient survenir à ce niveau, tout en développant simultanément l’utilisation de l’ordinateur et les mesures de sécurité nécessaires. »
Pour limiter les abus et éviter que des acteurs malveillants n’exploitent les capacités avancées de cet outil, Claude 3.5 Sonnet n’a pas été entraîné sur des captures d’écran ou des instructions des utilisateurs. De plus, il n’a pas accès à Internet durant sa formation. Anthropic a conçu ce modèle avec des classificateurs pour éviter les actions à haut risque, telles que créer des comptes ou publier sur les réseaux sociaux.