2025 - Customize this title in frenchLe nouveau modèle d'IA d'Apple apprend à comprendre vos applications et votre écran : pourrait-il libérer tout le potentiel de Siri ?

Make this article seo compatible,Let there be subheadings for the article, be in french, create at least 700 words

L’intelligence artificielle fait rapidement partie de notre expérience mobile, avec Google et Samsung en tête. Cependant, Apple fait également des progrès significatifs en matière d’IA au sein de son écosystème. Récemment, le géant de la technologie de Cupertino a présenté un projet connu sous le nom de MM1, un grand modèle de langage multimodal (MLLM) capable de traiter à la fois du texte et des images. Aujourd’hui, une nouvelle étude a été publiée, dévoilant un nouveau MLLM conçu pour saisir les nuances des interfaces d’affichage mobiles. Le papier, publié par l’Université Cornell et souligné par Apple Insiderprésente « Ferret-UI : compréhension de l’interface utilisateur mobile basée sur les LLM multimodaux. »

Ferret-UI est un nouveau MLLM conçu pour une meilleure compréhension des écrans d’interface utilisateur mobile, équipé de capacités de référence, de mise à la terre et de raisonnement.

En lisant entre les lignes, cela suggère que Ferret-UI pourrait permettre à Siri de mieux comprendre l’apparence et les fonctionnalités des applications et de l’interface iOS elle-même. L’étude souligne que, malgré les progrès des MLLM, de nombreux modèles ont du mal à comprendre et à interagir avec les interfaces utilisateur (UI) mobiles. Les écrans mobiles, souvent utilisés en mode portrait, présentent des défis uniques avec leur disposition dense d’icônes et de texte, ce qui rend leur interprétation difficile par l’IA.

Ferret-UI en action, analysant l’affichage d’un iPhone (Crédit image – Apple)

Pour résoudre ce problème, Ferret-UI introduit une fonction de grossissement qui améliore la lisibilité des éléments de l’écran en mettant à l’échelle les images à n’importe quelle résolution souhaitée. Cette capacité change la donne pour l’interaction de l’IA avec les interfaces mobiles.

Selon le document, Ferret-UI se distingue par la reconnaissance et la catégorisation des widgets, des icônes et du texte sur les écrans mobiles. Il prend en charge diverses méthodes de saisie telles que le pointage, le boxing ou le gribouillage. En effectuant ces tâches, le modèle acquiert une bonne compréhension des données visuelles et spatiales, ce qui l’aide à distinguer avec précision les différents éléments de l’interface utilisateur.

Ce qui distingue Ferret-UI, c’est sa capacité à travailler directement avec les données brutes des pixels de l’écran, éliminant ainsi le besoin d’outils de détection externes ou de fichiers d’affichage d’écran. Cette approche améliore considérablement les interactions sur un seul écran et ouvre des possibilités pour de nouvelles applications, telles que l’amélioration de l’accessibilité des appareils.

Le document de recherche vante la capacité de Ferret-UI à exécuter des tâches liées à l’identification, à la localisation et au raisonnement. Cette avancée suggère que les modèles d’IA avancés comme Ferret-UI pourraient révolutionner l’interaction avec l’interface utilisateur, en offrant des expériences utilisateur plus intuitives et efficaces.

Et si Ferret-UI était intégré à Siri ?

Bien qu’il ne soit pas confirmé si Ferret-UI sera intégré à Siri ou à d’autres services Apple, les avantages potentiels sont intrigants. Ferret-UI, en améliorant la compréhension des interfaces utilisateur mobiles grâce à une approche multimodale, pourrait améliorer considérablement les assistants vocaux comme Siri de plusieurs manières.

Cela pourrait signifier que Siri comprend mieux ce que les utilisateurs veulent faire dans les applications, peut-être même s’attaquer à des tâches plus complexes. De plus, cela pourrait aider Siri à mieux comprendre le contexte des requêtes en tenant compte de ce qui est à l’écran. En fin de compte, cela pourrait rendre l’utilisation de Siri plus fluide, lui permettant de gérer des actions telles que la navigation dans les applications ou la compréhension visuelle de ce qui se passe.

Source link -57

Titre : Adolescents victimes de films « snuff » et bébés kidnappés dans des réseaux de prostitution : mon témoignage sur la traite des êtres humains.

Un citron centenaire : l’outil d’un espion allemand pour des messages secrets en encre invisible durant la Première Guerre mondiale en exposition

Un homme tué par la police à la gare tenait un couteau, pas une arme à feu, selon le responsable qui défend les agents impliqués

Un homme tué par la police à la station avec un couteau, le chef de la police soutient que les agents méritent des éloges

Trump annonce de nouvelles mesures douanières le jour de la libération

Conseils pour une Recommandation Efficace

Hulk Hogan décline une discussion franche avec le mari de sa fille Brooke en pleine tourmente familiale, selon une source : ‘C’était imprévu’

Eden : Au-delà des apparences ? Analyse du film avec Jude Law et Ana de Armas

Nintendo Switch 2 Direct : Annonces clés et nouveautés à découvrir

Peut-on faire confiance à ChatGPT pour éditer vos photos dans le style Ghibli ?

XRP : Quel est le volume quotidien de transferts en dollars américains ?

Les nouveautés de Prime Video : Chris Pratt et Denzel Washington à l’affiche d’un western palpitant dans le top 10.

Titre : L’augmentation des utilisateurs de GPU AMD Radeon sur PC : des surprises inattendues

Réélections de Neuendorf et Watzke lors du Congrès de l’UEFA à Belgrade

Le concepteur de Schedule I a visiblement minimisé le volume de contenu de son nouveau succès sur Steam.

Customize this title in frenchLe nouveau modèle d’IA d’Apple apprend à comprendre vos applications et votre écran : pourrait-il libérer tout le potentiel de Siri ?

Et si Ferret-UI était intégré à Siri ?