Apple a présenté son nouveau modèle d'IA ReALM

Des chercheurs Apple ont développé un système d'intelligence artificielle appelé ReALM (Reference Resolution as Language Modeling), qui vise à améliorer radicalement la façon dont les assistants vocaux comprennent et répondent aux commandes.

Dans un document de recherche Apple décrit un nouveau cadre sur la façon dont les grands modèles de langage abordent le problème de la résolution des références, qui inclut le déchiffrement des références ambiguës aux objets à l'écran, ainsi que la compréhension du contexte conversationnel et d'arrière-plan. En conséquence, ReALM peut conduire à une interaction plus intuitive et naturelle avec les appareils.

La reconnaissance des références est un élément important de la compréhension du langage naturel, permettant aux utilisateurs d'utiliser des pronoms et d'autres références indirectes dans une conversation sans confusion. Pour les assistants numériques, cette capacité a toujours constitué un défi important, limité par la nécessité d’interpréter un large éventail de signaux verbaux et d’informations visuelles. Le système ReALM de Apple vise à résoudre ce problème en transformant le processus complexe de reconnaissance de références en une pure tâche de modélisation du langage. De cette manière, elle peut comprendre les références aux éléments visuels affichés à l’écran et intégrer cette compréhension dans le flux conversationnel.

ReALM reconstruit la structure visuelle de l'écran à l'aide de représentations textuelles. Cela inclut l'analyse des objets d'écran et leur organisation pour créer un format de texte qui reflète le contenu et la structure de l'écran. Des chercheurs Apple ont constaté que cette stratégie, combinée à un réglage spécial des modèles de langage pour les problèmes de résolution de référence, surpasse considérablement les méthodes traditionnelles, y compris les capacités GPT-4 d'OpenAI.

ReALM peut permettre aux utilisateurs d'interagir beaucoup plus efficacement avec les assistants numériques en fonction de ce qui est actuellement affiché à l'écran, sans avoir besoin d'instructions précises et détaillées. Cela pourrait rendre les assistants vocaux beaucoup plus utiles dans diverses situations, par exemple en aidant les conducteurs à naviguer dans les systèmes d'infodivertissement tout en conduisant ou en aidant les utilisateurs handicapés en fournissant des moyens d'interaction indirecte plus simples et plus précis.

Apple a déjà publié plusieurs articles de recherche dans le domaine de l’IA. Le mois dernier, la société a dévoilé une nouvelle méthode d’apprentissage de grands modèles linguistiques qui intègre de manière transparente des informations textuelles et visuelles. Il est prévu que Apple présentera un certain nombre de fonctionnalités d'IA lors de la conférence WWDC en juin.

Lisez aussi:

sourceMacrumors

S'inscrire

0 Commentaires

Avis intégrés

Voir tous les commentaires

Autres articles

Apple a présenté son nouveau modèle d'IA ReALM

Commentaires récents