MusicLM : le nouvel outil d’intelligence artificielle de Google peut transformer du texte, des sifflements et des fredonnements en véritable musique

[ad_1]

Des chercheurs de Google ont révélé une IA de synthèse musicale qui crée des chansons pouvant durer jusqu’à cinq minutes.

En publiant un article avec leur travail et leurs découvertes jusqu’à présent, l’équipe a présenté MusicLM au monde avec un certain nombre d’exemples qui ressemblent de manière surprenante à leurs invites de texte.

Les chercheurs affirment leur modèle « surclasse les systèmes précédents à la fois en qualité audio et en respect de la description textuelle ».

Les exemples sont des extraits de 30 secondes des chansons et incluent leurs sous-titres tels que :

  • « La bande originale d’un jeu d’arcade. Il est rapide et optimiste, avec un riff de guitare électrique accrocheur. La musique est répétitive et facile à retenir, mais avec des sons inattendus, comme des crashs de cymbales ou des roulements de tambour ».
  • « Une fusion de reggaeton et de musique de danse électronique, avec un son spatial et d’un autre monde. Induit l’expérience d’être perdu dans l’espace, et la musique serait conçue pour évoquer un sentiment d’émerveillement et d’admiration, tout en étant dansable ».
  • « Un synthé montant joue un arpège avec beaucoup de réverbération. Il est soutenu par des pads, une ligne de sous-basse et une batterie douce. Cette chanson est pleine de sons de synthé créant une atmosphère apaisante et aventureuse. Il peut jouer dans un festival pendant deux chansons pour une montée en puissance ».

L’utilisation de l’IA pour générer de la musique n’a rien de nouveau – mais un outil capable de générer de la musique passable basée sur une simple invite de texte n’a pas encore été présenté. C’est jusqu’à présent, selon l’équipe derrière MusicLM.

Les chercheurs expliquer dans leur article les différents défis auxquels est confrontée la génération de musique IA. Premièrement, il y a un problème avec le manque de données audio et textuelles appariées – contrairement à l’apprentissage automatique du texte à l’image, où ils disent que d’énormes ensembles de données ont « contribué de manière significative » aux avancées récentes.

Par exemple, l’outil DALL-E d’OpenAI et Stable Diffusion ont tous deux suscité un regain d’intérêt du public dans la région, ainsi que des cas d’utilisation immédiats.

Un défi supplémentaire dans la génération de musique par IA est que la musique est structurée « le long d’une dimension temporelle » – une piste musicale existe sur une période de temps. Par conséquent, il est beaucoup plus difficile de capturer l’intention d’une piste musicale avec une légende de texte de base, par opposition à l’utilisation d’une légende pour une image fixe.

MusicLM est une étape pour surmonter ces défis, dit l’équipe.

Il s’agit d’un « modèle hiérarchique de séquence à séquence pour la génération de musique » qui utilise l’apprentissage automatique pour générer des séquences pour différents niveaux de la chanson, tels que la structure, la mélodie et les sons individuels.

Pour apprendre à faire cela, le modèle est formé sur un grand ensemble de données de musique sans étiquette, ainsi qu’un ensemble de données de sous-titres musicaux de plus de 5 500 exemples, qui ont été préparés par des musiciens. Cet ensemble de données a été rendu public pour soutenir les recherches futures.

Le modèle permet également une entrée audio, sous forme de sifflement ou de fredonnement par exemple, pour aider à informer la mélodie de la chanson, qui sera alors « rendue dans le style décrit par l’invite de texte ».

Il n’a pas encore été rendu public, les auteurs reconnaissant les risques potentiels de « détournement de contenu créatif » si une chanson générée ne différait pas suffisamment du matériel source dont le modèle a appris.

[ad_2]

Source link -32