Nouvelles technologies

Des médias français ont annoncé suivre le New York Times dans son refus de nourrir ChatGPT avec leurs contenus. La question des données utilisées pour entraîner les IA génératives est devenue un enjeu crucial, suscitant des inquiétudes quant à l’utilisation et à la réutilisation de contenus protégés par le droit d’auteur.

Plusieurs médias français se sont ralliés au New York Times dans sa résolution de ne pas fournir de contenu à ChatBot, le robot basé sur ChatGPT d’OpenAI. Suite à l’annonce officielle de Radio France le 28 août, les groupes TF1 et France Médias Monde (comprenant RFI, France 24 et MCD) ont également bloqué l’accès aux données de leurs sites que Open AI cherchait à utiliser pour former ses modèles d’intelligence artificielle, sans que la valeur soit partagée.

De même, une filiale du groupe Ouest France, Publihebdos, s’oppose à ce que la propriété intellectuelle des articles de son site Actu.fr soit utilisée sans autorisation, permettant ainsi à l’IA générative de réécrire ces contenus à sa guise pour une exploitation commerciale. Pierre Louette, PDG du groupe Les Echos-Le Parisien, plaide en faveur d’un « nouveau contrat » et soutient que la contribution des éléments de l’IA devrait être rétribuée.

Le New York Times, l’un des médias les plus prestigieux au monde, a été le pemier à prendre des mesures pour empêcher OpenAI de récolter ses données. Il a rapidement été suivi par CNN, Reuters ou encore ABC.

Cet été, OpenAI a été soumis à une pression croissante, incitant l’entreprise à fournir des informations sur la manière dont les éditeurs peuvent bloquer l’accès à son robot d’exploration (crawler). Concrètement, ces médias bloquent les robots d’indexation des contenus servant à entraîner les modèles génératifs. Ils restreignent l’accès de GPTBot et CCBot à leurs sites web en ajoutant des directives dans leurs fichiers robots.txt.

Quelle réglementation ?

L’intelligence artificielle est de plus en plus présente dans divers domaines, y compris le journalisme, où elle est utilisée pour automatiser certaines tâches et améliorer l’efficacité. La différence depuis l’avènement de l’IA générative grand public, c’est que ces grands modèles de langage dépendent de l’accès à une grande quantité d’informations pour fonctionner efficacement.

La société NewsGuard a révélé l’utilisation croissante de l’IA pour réécrire et reproduire des articles issus de sources d’information de renom, sans les citer. Cette pratique automatisée soulève des préoccupations en matière de droits d’auteur, de plagiat et de financement, alors que de grandes marques se retrouvent involontairement à financer ces pratiques trompeuses à travers la publicité programmatique.

Certains acteurs du secteur, tels que l’Agence France-Presse et Getty Images, appellent à une réglementation de l’IA, notamment en ce qui concerne la transparence sur les ensembles de données utilisés pour former les modèles d’IA et le consentement pour l’utilisation de contenu protégé par le droit d’auteur. De son côté, Google a proposé que les systèmes d’IA respectent les désengagements explicites des éditeurs.

La question fondamentale derrière ces réactions de médias est de savoir si l’IA représente une menace pour le journalisme ou si elle peut coexister en tant que partenaire… Certains s’inquiètent de l’utilisation abusive de contenus protégés par le droit d’auteur, tandis que d’autres voient dans l’IA une opportunité d’améliorer la collecte, l’analyse et la diffusion de l’information.