Les médias pourraient gagner en visibilité grâce à l'IA. Encore faut-il parvenir à résoudre la question de l'identification des sources utilisées par les IA génératives.

L’intelligence artificielle inquiète autant qu’elle fascine, notamment dans le domaine de la création. Ce paradoxe s’est encore manifesté tout récemment lorsque Radio France et TF1 ont emboîté le pas au New York Times en bloquant le robot d’exploration d’OpenAI, GPTBot, s’opposant ainsi à l’utilisation de leurs publications pour l’apprentissage de l’IA générative. Mais il ne s’agit pas – ou pas encore - d’un mouvement généralisé des médias.

Est-il légitime que les IA génératives utilisent sans autorisation des publications de presse pour s’entraîner dans le but, à terme, de générer elles-mêmes des contenus sur la base des connaissances acquises ? En 2019, les éditeurs de presse et agences de presse ont obtenu le droit, pour une durée de deux ans, d’être rémunérés en cas de reproduction ou communication au public en ligne de leurs publications de presse.

Toutefois, la fouille de textes et de données, c’est-à-dire leur analyse automatisée afin d’en dégager des informations, est possible sans autorisation. Conçue à des fins de recherche scientifique pour faciliter le travail des chercheurs, cette exception s’applique aussi quelle que soit la finalité de la fouille, y compris commerciale. Il est alors permis de s’y opposer. C’est cette possibilité qui a été mise en œuvre par les médias qui bloquent GPTBot.

Droit voisin invoqué

Ce droit voisin pourrait sans doute être invoqué lorsque l’IA reproduit ou communique en ligne des extraits de publications de presse, sauf s’il s’agit de mots isolés ou de très courts extraits. Mais il ne devrait pas s’appliquer à l’IA qui génère des contenus reprenant des informations ou la substance des publications avec lesquelles elle a été entraînée.

En droit, l’idée n’est pas protégeable ou appropriable, pas plus que ne le sont les faits ou données brutes. Seule la mise en forme est protégeable par le droit d’auteur à la condition d’être originale. Nulle autorisation n’est donc nécessaire pour écrire un article sur le même sujet qu’un tiers. Aucune autorisation n’est donc nécessaire si l’IA générative répond à une question en utilisant les idées ou les informations brutes véhiculées par les contenus préexistants sans reprendre la mise en forme.

Or, on ne peut nier les investissements et le travail des rédactions et journalistes qui vont sur le terrain, enquêtent, analysent et vérifient pour créer un contenu exclusif, qui satisfait le besoin d’une information fiable et qui doit être valorisé et protégé. Ce sont ces contenus à forte valeur ajoutée qui font la spécificité et la valeur de certains médias et leur permettent de se différencier.

L’exception de fouille avec la possibilité d’opposition ne semble pas suffisante à protéger utilement les médias, puisque ces derniers n’ont le choix qu’entre s’exclure de l’IA ou accepter une utilisation non régulée. Or, si l’IA se généralise, notamment dans les moteurs de recherche, les internautes pourraient se contenter de la réponse proposée par l’IA sans cliquer sur l’article qui en constitue la source. Mais il est aussi préjudiciable pour les médias de renoncer à participer à tel système de diffusion de la pensée.

Obligations imposées

Pour préserver un équilibre des intérêts et sécuriser les médias, l’utilisation de leurs publications pour entraîner les IA génératives devrait être plus encadrée et éthique, et certaines obligations pourraient être imposées, par la loi ou la négociation. On peut ainsi envisager une obligation de transparence consistant à informer des contenus utilisés pour entraîner l’IA, mais aussi à informer lorsqu’un contenu a été créé par l’IA sans auteur humain (ce qui vaut aussi pour les médias qui utilisent l’IA pour produire du contenu).

Autre piste possible, une obligation d’identifier la source utilisée et l’auteur (comme pour l’exception de courte citation), et d’insérer un lien permettant d’accéder au contenu digital originel, ce que font déjà parfois certaines IA comme le robot conversationnel ChatGPT intégré à Bing. Enfin, une rémunération pour valoriser les efforts de création d’un contenu journalistique innovant et vérifié et les investissements financiers et humains des éditeurs de presse est possible.

Techniquement, le challenge sera de pouvoir déterminer de façon adéquate la source utilisée et s’il s’agit d’un contenu exclusif qui mérite d’être identifié et rémunéré, sachant qu’il n’est pas rare que les mêmes informations soient reprises par de nombreux médias ou que certains se contentent de reprendre les informations documentées par d’autres.

On peut d’ailleurs s’interroger sur le fait que l’exception de fouille soit le bon outil. Comme toute exception, elle ne peut être valablement invoquée que si elle ne porte pas atteinte à l’exploitation normale de la publication ou ne cause pas un préjudice injustifié aux intérêts légitimes des éditeurs de presse. Est-ce vraiment le cas lorsque les IA utilisent la substance de publications pour générer des contenus qui leur font concurrence ou même s’y substituent ? L’IA générative devient incontournable dans beaucoup de domaines. Mieux encadrée, elle deviendra une opportunité pour la visibilité des médias.