On a beaucoup parlé d’IA pour le texte et l’image, mais la révolution technologique a aussi lieu pour l’audio. Dans le milieu publicitaire, les professionnels observent de très près les fulgurantes avancées de l’intelligence artificielle. Un article également disponible en version audio.

Écoutez cet article :

Cet été, on a pu entendre Angèle chanter « Elle boit du daïquiri et m’appelle ma chérie ». Cette reprise du morceau Saiyan, de l’Heuss L’enfoiré et Gazo, a fait beaucoup de bruit car le tube, qui semble chanté par la pop star belge, l’est en réalité par une voix générée à l’aide d’une intelligence artificielle. Troublant par sa vraisemblabilité et la qualité de sa production, le remix est l’œuvre du beatmaker Lnkhey, qui a expliqué au média Brut avoir reproduit l’identité vocale d’Angèle grâce à l’outil Voicemy.ai. La chanteuse, qui a écrit ne pas savoir quoi penser de l’intelligence artificielle, a réagi en chantant elle-même un extrait du titre sur TikTok puis sur scène lors de la Fête de l’Humanité.

Ce n’est pas la première fois que la voix d’une ou d’un artiste est clonée. L’année 2023 s’est ouverte sur les fausses reprises de Happier Than Ever de Billie Eilish, chanté par la voix d’Ariana Grande, ou encore Video Games de Lana Del Rey, chanté par Lady Gaga. En avril, Drake et The Weeknd ont aussi connu un épisode de « deep voice » avec la diffusion de « Heart On My Sleeve », un titre créé de toutes pièces avec leurs deux voix et qui enregistre actuellement 65 000 écoutes sur Spotify. « Est-ce que ce genre de titre peut être légitime aux Grammy Awards ? », lance Rémy Dorne, head of music d’Ogilvy Paris. On peut encore citer David Guetta qui, en février, s’est amusé à apposer la voix d’Eminem sur un texte écrit par une IA à la manière du rappeur américain. « Je pense que l’intelligence artificielle est l’avenir de la musique », a affirmé le DJ français à la BBC.

Question d'éthique

« Est-ce que les consommateurs sont en mesure d’identifier la véracité d’un son ? », s’interroge Virgile Brodziak, directeur général de Wunderman Thompson France. Son agence a réalisé pour Spotify Advertising le rapport de tendances « Future of Sound ». « Les premiers essais de l’IA dans la musique posent aussi la question de l’éthique de l’utilisation de la voix d’un ou d’une autre », ajoute-t-il. Surtout lorsqu’il s’agit de faire dire quelque chose à la voix d’emprunt. Et ce, alors que les arnaques par téléphone, avec une voix familière au bout du fil, commencent à voir le jour aux États-Unis, où la technologie en version anglaise est plus avancée. La question éthique est aussi valable pour les voix de célébrités défuntes. En juin, Paul McCartney a dû clarifier son projet de « dernière chanson des Beatles » : l’IA est en fait utilisée pour « nettoyer » les pistes d’un vieil enregistrement afin d’isoler la voix de John Lennon et non pas pour la reproduire.

Derrière l’IA, c’est la propriété intellectuelle qui est en jeu. S’il existe des outils de génération de musique comme MusicLM de Google, Mubert ou encore Beatoven.ai, les professionnels de la publicité ne s’aventurent guère sur ces terrains. « L’IA générative se nourrit de choses qu’elle a pu attraper à droite, à gauche », fait remarquer Virgile Brodziak. Les agences ne veulent donc prendre aucun risque. « En France, on a un droit patrimonial très fort. Or des prompts vont forcément puiser dans des sources. Pour nous, c’est une priorité de défendre les artistes, qu’ils soient rémunérés et reconnus. La musique libre de droit, ça n’existe pas. Nous devons aussi protéger nos clients en leur fournissant une facture pour chaque morceau acheté, avec la durée et l’étendue des droits », présente Agathe Chevalier, head of sound d’Ogilvy Paris. « Ça devient complexe d’être rémunéré en tant que musicien à l’heure du streaming. Si en plus, on ajoute de la musique créée par l’IA, comment vivre de son art ? », se demande Marc Zisman, directeur musique de la plateforme Qobuz.

« En tant que directeur artistique sonore, je vais briefer un compositeur dans un studio plutôt qu’une machine car il faut une bonne maîtrise de la machine pour sortir quelque chose de beau et de cohérent », commente Ludovic Houdré, cofondateur du studio de création musicale Like Fire. Également DJ, Ludovic Houdré a animé le show Fake tracks only (les morceaux « les plus fous » générés avec l’IA) sur la webradio Rinse France en mai dernier. Mais la plupart du temps, les créations de l’IA sont peu probantes. « On voit qu’il n’y a pas de compositeur. La qualité sonore n’est pas terrible. Pour un effet ou une ambiance sonore, il vaut mieux se tourner vers les banques de son, très complètes », estime Benjamin Levy, vice-président et managing partner de WNP. « On utilise l’IA pour nos recherches musicales. L’IA va analyser le tempo, le style, les instruments d’une musique de référence et nous proposer des morceaux qui ressemblent, parfois moins chers », informe Rémy Dorne.

Voix maquettes

« L’intelligence artificielle est aboutie dans la restauration sonore. Sur de vieilles pistes avec beaucoup de parasites et des voix lointaines, l’IA peut sortir les voix parfaitement nettes », constate Ludovic Houdré. L’IA pourrait donc bien avoir pour autre vertu de simplifier le travail des ingénieurs du son. « C’est un troisième bras qui nous fait gagner un temps fou », confirme Christophe Caurret, directeur de création musique de Publicis et directeur général du département son de la société de production Prodigious. « Elle nous permet de faire des montages automatiques, de synchroniser la musique sur l’image », illustre-t-il. « Le text-to-speech permet aussi de faire rapidement de l’audiodescription pour des petits formats », complète Antoine Clergeot, head of innovation de Prodigious.

Pour les voix maquettes, il existe des outils de text-to-speech comme Murf.ai, Deepzen.io ou encore Elevenlabs.io. « Elles peuvent avoir leur utilité sur un set pour caler le tempo de la voix, même si la voix de synthèse n’a pas la bonne tonalité. Mais dans le cadre d’une compétition, nous préférons enregistrer en studio, où il y a un vrai savoir-faire, avec des comédiens. L’objectif est de s’approcher au maximum de ce qui sera produit car, avec les voix de synthèse, nous n’avons jamais obtenu un rendu assez expressif », déroule Benjamin Levy. « Je ne suis pas particulièrement inquiète du remplacement des comédiens par des voix d’IA car elles n’ont pas les respirations, les intonations… », renchérit Agathe Chevalier, qui souligne qu’il est aujourd’hui plus simple de diriger un comédien qu’une IA.

Peut-on imaginer la création d’une voix réaliste comme dans le film Her de Spike Jonze ? Peut-être d’ici à deux ans, d’après les professionnels interrogés. « Les assistants vocaux ont connu une période calme, qui leur a permis de s’installer chez les gens. Bientôt elles connaîtront un second souffle », prédit Virgile Brodziak. En particulier si les assistants vocaux s’associent aux compétences du très performant ChatGPT4. Chez Publicis, Christophe Caurret et Antoine Clergeot misent sur la technologie. Ils ont fait développer l’outil Talkbox, qui permet de définir une voix (masculine, féminine, enfantine) avec un panel de 83 langues. La solution, qui s’appuie sur les voix de Microsoft et Google, est surtout employée sur des budgets en social media. « Il n’y a pas une production sur laquelle on n’est pas transparent sur l’utilisation de l’IA », prévient Antoine Clergeot. « L’IA est très utile sur les réseaux sociaux où il y a une explosion du volume de production », poursuit Christophe Caurret.

Lipsync

« L’IA a une vraie utilité pour les créateurs de contenu, rapporte Benjamin Levy. Il existe déjà des outils d’intelligence artificielle pensés pour eux comme Captions.ai qui permet de recadrer le regard et de sous-titrer en plusieurs langues. Pareil pour les podcasteurs qui peuvent se tourner vers l’intelligence artificielle pour supprimer des bruits de fond ou des silences avec des outils comme Podcastle.ai. » Mais la vraie révolution de l’IA est sûrement sa capacité de traduction des voix en plusieurs langues avec le « lipsync » : la bouche et les lèvres du locuteur qui bougent de manière réaliste. Cette fonctionnalité bluffante est proposée par Heygen.ai dans plusieurs langues dont le mandarin, le japonais, le turc, l’hindi…

Un directeur d’agence raconte avoir filmé sa petite fille en train de réciter un poème en français puis, avec Heygen.ai, avoir généré la vidéo de l’enfant parlant anglais. Sur le WhatsApp familial, les grands-parents n’ont pas su déceler la supercherie. « Si un influenceur français a un bon concept, demain il peut traduire ses vidéos et ainsi grossir sa communauté », remarque Benjamin Levy. D’ailleurs, Spotify a saisi l’opportunité business de cette technologie et a annoncé fin septembre la mise à disposition d’un outil d’IA de traduction de podcasts. Et dans la pub ? « Dans une campagne internationale, il est rare de voir un acteur qui parle face caméra. Actuellement, la dimension multilingue est compliquée à mettre en œuvre, décrit Christophe Caurret. Ce sont souvent des voix off qui sont utilisées. » Le lipsync pourrait donc bien faire bouger, non pas les lèvres, mais la création elle-même.