Nouvelle IA Microsoft peut imiter la voix de n'importe quelle personne

Jeudi, les chercheurs Microsoft a annoncé un nouveau modèle d'intelligence artificielle (IA) appelé VALL-E, capable d'imiter avec précision une voix humaine lorsqu'on lui donne un échantillon audio de trois secondes. Une fois qu'il a appris une voix particulière, VALL-E peut synthétiser l'audio de cette personne disant n'importe quoi tout en préservant le ton émotionnel de l'orateur.

Ses auteurs suggèrent que VALL-E peut être utilisé pour la synthèse vocale de haute qualité, l'édition de la parole, où l'enregistrement d'une personne peut être édité et modifié à partir d'une transcription de texte (lui faisant dire des choses qu'il n'a pas dites à l'origine), et pour créer du contenu audio combiné avec d'autres modèles d'IA générative tels que GPT-3.

Microsoft appelle VALL-E un « modèle de langage de codec neuronal » et il est basé sur une technologie appelée EnCodec que Meta a annoncée en octobre 2022. Contrairement à d'autres méthodes de synthèse vocale, qui synthétisent généralement la parole en manipulant des formes d'onde, VALL-E génère de l'audio discret. codes codecs à partir de messages texte et acoustiques. Il analyse essentiellement à quoi ressemble une personne, décompose ces informations en composants discrets (appelés « jetons ») grâce à EnCodec et utilise les données d'entraînement pour correspondre à ce qu'elle « sait » sur le son de cette voix si elle prononçait d'autres phrases à l'extérieur. de l’échantillon de trois secondes.

Microsoft formé les capacités de synthèse vocale de VALL-E sur une bibliothèque audio compilée par Meta appelée LibriLight. Il contient 60 7 heures d'émissions en langue anglaise provenant de plus de XNUMX XNUMX annonceurs, pour la plupart tirées de livres audio LibriVox accessibles au public.

En plus de préserver le timbre de la voix et le ton émotionnel de l'annonceur, VALL-E peut également simuler « l'environnement acoustique » de l'échantillon audio. Par exemple, si l'échantillon a été obtenu à partir d'une conversation téléphonique, la sortie audio synthétisée simulera les propriétés acoustiques et fréquentielles de la conversation téléphonique. Egalement des échantillons Microsoft démontrer que VALL-E peut générer des variations de timbre vocal.

Peut-être en raison de la capacité de VALL-E à potentiellement faciliter la fraude et la tromperie, Microsoft n'a pas fourni le code VALL-E pour que d'autres puissent l'expérimenter, nous ne pourrons donc pas tester ses capacités. Les chercheurs semblent être conscients du préjudice social potentiel que cette technologie pourrait entraîner. En conclusion de l’article, ils écrivent :

«Parce que VALL-E peut synthétiser la parole qui préserve l'identité de l'orateur, il peut comporter des risques potentiels d'abus de modèle, tels que l'usurpation d'identité vocale ou l'usurpation de l'identité d'un locuteur particulier. Pour réduire ces risques, un modèle de reconnaissance sera construit pour distinguer si un clip audio a été synthétisé à l'aide de VALL-E."

Vous pouvez aider l'Ukraine à lutter contre les envahisseurs russes. La meilleure façon de le faire est de faire don de fonds aux forces armées ukrainiennes par le biais de Sauver la vie ou via la page officielle NBU.

Lisez aussi:

sourceArsTechnica

S'inscrire

0 Commentaires

Avis intégrés

Voir tous les commentaires

Autres articles

Nouvelle IA Microsoft imite la voix de n'importe quelle personne à partir d'un échantillon audio de 3 secondes

Commentaires récents