Root NationNouvellesActualités informatiquesMicrosoft a présenté une approche multimodale ouvrant la voie à une IA à l'échelle humaine

Microsoft a présenté une approche multimodale ouvrant la voie à une IA à l'échelle humaine

-

Au début de cette semaine, des chercheurs de Microsoft a présenté Kosmos-1, un modèle d'intelligence artificielle multimodale capable d'analyser le contenu des images, de résoudre des énigmes visuelles, d'effectuer une reconnaissance visuelle de texte, de passer des tests de QI visuel et de comprendre des instructions en langage naturel. Selon les chercheurs, de tels modèles d’IA constituent la première étape vers la création d’une intelligence générale (IA) artificielle capable d’effectuer des tâches communes au niveau humain. Autrement dit, cette technologie pourra remplacer une personne dans n’importe quelle tâche intellectuelle. Et c’est l’objectif affiché d’OpenAI, partenaire commercial clé Microsoft dans le domaine de l'intelligence artificielle.

Dans ce cas, Kosmos-1 est un développement purement personnel de l'entreprise Microsoft. Les chercheurs appellent leur création un « modèle multimodal de langage large » (MLLM) car ses racines se trouvent dans le traitement du langage naturel uniquement textuel tel que LLM, tel que ChatGPT. Pour que le modèle accepte les images d'entrée, les chercheurs doivent d'abord convertir les images en une série spéciale de jetons (principalement du texte) que le LLM peut comprendre.

- Publicité -

Kosmos-1 a été formé sur une base de données Internet, comprenant des extraits de The Pile (une ressource textuelle en anglais de 800 Go) et Common Crawl. Le modèle a ensuite été testé avec plusieurs tests de compréhension de la parole, de génération de parole, de classification de texte sans reconnaissance optique de caractères, de sous-titrage d'images, de réponse visuelle aux questions, de réponse aux questions de pages Web et de classification d'images avec localisation. Selon Microsoft, Kosmos-1 a surpassé les modèles actuels dans bon nombre de ces tests.

Le test de raisonnement progressif de Raven, qui mesure le QI visuel en présentant une séquence de formes et en demandant au sujet de compléter la séquence, était particulièrement intéressant. Kosmos-1 a pu donner la bonne réponse dans 22% des cas.

Ces premières étapes, qui, avec une optimisation future, pourraient donner des résultats encore plus significatifs, permettant aux modèles d'IA de percevoir et d'influencer toute forme de média, élargissant considérablement les capacités des assistants artificiels.

Lisez aussi: