L’article explore l’émergence de l’IA générative dans la création de contenu télévisuel, en mettant l’accent sur ses applications potentielles en préproduction, postproduction et distribution. Lors du Mipcom Cannes, des experts ont discuté des défis juridiques liés aux droits d’auteur et à l’utilisation de l’IA. Les voix synthétiques, la synchronisation labiale et la génération vidéo sont identifiées comme les principaux domaines d’innovation, bien que la clarification juridique demeure un obstacle majeur à l’adoption généralisée.
L’intelligence artificielle générative commence à intégrer les processus de création de contenu, offrant aux décideurs la possibilité de minimiser les risques juridiques. Malgré les progrès réalisés dans la performance de l’IA générative, des incertitudes juridiques concernant les droits d’auteur et les données d’entraînement continuent d’entraver son déploiement dans la production de contenus finaux. Cette année, le Mipcom Cannes a rassemblé des spécialistes pour examiner l’impact de l’IA générative sur l’industrie télévisuelle lors de son « Applied AI Summit », qui s’est tenu le 21 octobre. Au programme de l’événement figureront des présentations, des panels, des démonstrations technologiques et des discussions. VIP+ a partagé ses travaux concernant l’état actuel de l’IA générative à la télévision, comme indiqué dans son rapport de juin intitulé « Generative AI in Film & TV ».
En attendant une clarification juridique, l’utilisation précoce de l’IA générative devrait se concentrer sur la préproduction, la postproduction et la distribution. Selon une enquête de VIP+ réalisée par HarrisX en mai 2024, les professionnels américains des médias et du divertissement anticipent l’emploi de l’IA générative pour la conception, l’amélioration des effets spéciaux (VFX) et la localisation (comme le doublage par IA).
La présentation de VIP+ au Mipcom a identifié trois secteurs où l’IA générative pourrait avoir un impact immédiat sur la création et la distribution de contenus télévisuels :
1. Les synthèses vocales gagnent en réalisme et connaissent une adoption précoce, notamment pour le doublage de contenus à enjeux faibles, comme les actualités ou le sport destinés à des plateformes telles que YouTube. L’objectif est d’accélérer le processus de localisation, élargissant ainsi l’audience pour des contenus souvent non doublés. Cependant, le doublage de productions télévisuelles de qualité supérieure reste moins avancé, les voix générées par IA étant parfois inférieures à celles des acteurs humains. Cela dit, des outils d’ajustement du ton et de l’inflexion existent pour améliorer ces voix. L’efficacité de l’utilisation de l’IA par rapport à un enregistrement traditionnel dépendra de l’effort requis pour obtenir une piste vocalement satisfaisante pour des productions haut de gamme. Il est également possible de se concentrer sur le doublage dans des langues moins répandues pour maximiser la portée et la rentabilité.
Au-delà du doublage, la technologie de clonage vocal pour la narration émerge, avec la nécessité d’obtenir le consentement et une compensation adéquate des artistes ou de leurs ayants droit. Par exemple, le clonage vocal d’Al Michaels a été utilisé pour créer des moments forts sur Peacock pour les Jeux Olympiques.
2. Les modèles de deep learning sont très efficaces pour réaliser des modifications complexes des visages. Le potentiel réside dans le doublage avec synchronisation labiale et les échanges de visages pour des effets variés, tels que le vieillissement des personnages. Des outils comme Flawless et LipDub AI de MARZ synchronisent les mouvements faciaux avec une voix doublée, permettant aux studios d’offrir une expérience immersive aux spectateurs, leur donnant l’impression de regarder du contenu dans leur langue maternelle. Ces techniques peuvent également servir à des ajustements visuels pour masquer des imperfections ou modifier l’âge des acteurs.
3. La génération vidéo avance rapidement, suscitant un intérêt croissant parmi les studios et certains réalisateurs pour intégrer ces outils dans leurs workflows. Toutefois, les implications professionnelles de la génération vidéo dans une production de studio doivent encore être clarifiées. À mesure que les studios explorent l’utilisation de la génération vidéo, ils collaboreront très probablement avec des équipes d’IA pour optimiser les résultats. Néanmoins, ces nouvelles technologies différeront significativement des méthodes de tournage traditionnelles en matière de réalisme, de continuité et de contrôlabilité. Des critiques évoquent que le passage de texte à vidéo peut être aléatoire, avec des résultats qui ne répondent pas toujours aux exigences spécifiques d’une production. Les capacités variées des différentes techniques, comme le nouveau système vidéo-vidéo de Runway, peuvent également influer sur la qualité des résultats.
De plus, de grands studios envisagent d’affiner les modèles de génération vidéo en les formant davantage sur leur propre contenu pour un usage interne. Le partenariat récemment annoncé entre Lionsgate et Runway illustre ce processus d’ajustement dans un studio. Cependant, six autres studios hollywoodiens travaillent également sur ce type de fin