GEMA c. OpenAI : quand la mémoire des modèles d’IA devient une preuve de contrefaçon

GEMA c. OpenAI : quand la mémoire des modèles d’IA devient une preuve de contrefaçon

Le 11 novembre 2025, le Tribunal régional de Munich a rendu une décision très attendue dans l’affaire GEMA c. OpenAI. Au centre du litige : la capacité de modèles d’intelligence artificielle, comme ceux d’OpenAI, à reproduire des paroles de chansons protégées après les avoir ingérées lors de leur entraînement.

GEMA est la société allemande de gestion collective des droits des auteurs, compositeurs et éditeurs de musique. Elle reprochait à OpenAI que certains de ses modèles – les grands modèles de langage à l’origine de ChatGPT – soient capables de générer, sur simple demande et sans recherche en ligne préalable par le chatbot pour générer ces résultats, des extraits complets ou quasi complets de neuf chansons de son répertoire, sans autorisation ni rémunération.

Le point clé de la décision est le suivant : pour le tribunal, si un modèle d’IA est capable de restituer une œuvre protégée, c’est qu’il l’a reproduite et mémorisée dans ses paramètres au moment de l’entraînement. La reproduction n’est donc plus seulement une affaire de copies “visibles” dans une base de données ou un serveur : elle peut résider dans la structure même du modèle.

Comment le tribunal démontre la reproduction : de l’entrée à la sortie du modèle

L’un des apports majeurs de la décision tient à la méthode retenue pour prouver la reproduction. Le tribunal ne cherche pas à ouvrir la “boîte noire” du modèle, ni à analyser son code ligne par ligne. Il raisonne de manière pragmatique, à partir de trois observations simples :

Les neuf chansons en cause figuraient dans les données d’entraînement (les fameux inputs).
Elles ressortent ensuite, parfois presque textuellement, dans les réponses générées par les modèles (les outputs).
La longueur et la précision des paroles excluent toute coïncidence ou simple inspiration statistique.

Autrement dit : si l’œuvre protégée est entrée dans le modèle et qu’elle en ressort de manière reconnaissable, le lien causal est établi. Le tribunal en déduit que les textes ont été intégrés et mémorisés dans le modèle au cours de l’entraînement.

Sur le plan technique, les données d’entraînement sont transformées en valeurs numériques et en paramètres. OpenAI soutenait qu’il ne s’agit que d’“abstractions mathématiques” et non de copies juridiques. Le tribunal prend le contre-pied : cette mémorisation paramétrique est qualifiée de reproduction, car elle permet à l’IA de régénérer l’œuvre en sortie. La fixation ne se fait plus sous forme de fichier texte, mais sous forme de poids et de vecteurs ; cela n’empêche pas, au contraire, de considérer qu’il y a bien reproduction.

Ce raisonnement est d’autant plus intéressant qu’il évite une exigence irréaliste : il n’est pas nécessaire de montrer où, dans les millions de paramètres, se trouvent exactement les paroles de la chanson. Il suffit de constater que le modèle peut les refaire apparaître à la demande, ce qui démontre que l’œuvre est implantée dans le système de manière suffisamment stable.

Le tribunal va également plus loin en considérant que les paroles générées, y compris lorsqu’elles sont partiellement modifiées ou entachées “d’hallucinations”, peuvent constituer une reproduction ou une adaptation illicite dès lors que l’œuvre d’origine reste reconnaissable. Le simple fait que le texte soit stocké sur l’écran de l’utilisateur, dans l’historique de conversation ou sur les serveurs du fournisseur suffit à caractériser une fixation protégée par le droit d’auteur.

Pourquoi l’exception de text and data mining ne fonctionne pas ici

Face à ces griefs, OpenAI invoquait l’exception de text and data mining (TDM), qui permet la fouille de textes et de données à des fins d’analyse, notamment pour entraîner des systèmes d’IA. Le tribunal reconnaît que, en principe, l’entraînement d’un modèle d’IA peut entrer dans le champ de cette exception : le législateur européen savait pertinemment que les données servent à développer des modèles, et a voulu favoriser l’innovation.

Mais la décision met une limite très nette : le TDM couvre les opérations techniques nécessaires pour analyser les données, par exemple pour en extraire des tendances ou des structures linguistiques. Il ne couvre pas la situation où le modèle est capable de restituer l’œuvre elle-même.

Selon le tribunal, OpenAI ne se contente pas d’analyser les chansons et d’en tirer des règles de grammaire ou des tendances musicales. Ses modèles sont capables de reproduire les paroles de façon quasi intégrale. L’usage “dépasse matériellement et intentionnellement” la fouille de données. À partir du moment où la chanson peut ressortir en sortie, on n’est plus dans l’analyse, mais dans la reconduction de l’œuvre, ce qui exclut l’exception de TDM.

L’exception de reproduction temporaire est également écartée. Les paramètres dans lesquels l’œuvre est mémorisée n’ont rien de fugace : ils sont conservés dans le temps et conçus pour être réutilisés lors de futures générations. L’opération ne se limite donc pas à un acte purement technique et momentané, mais s’inscrit dans la durée et sert directement l’exploitation du modèle.

À ce stade, la question souvent débattue de l’opt-out (la possibilité pour les titulaires de droits de refuser le TDM) n’a même plus d’importance : pour le tribunal, l’exception ne s’applique pas par nature dès lors que l’outil reproduit l’œuvre.

Un choix clair : la responsabilité pèse sur le fournisseur, pas sur l’utilisateur

Un autre point très fort de la décision concerne la répartition de la responsabilité. GEMA attaquait OpenAI, pas les utilisateurs. Le tribunal confirme que c’est bien le fournisseur du modèle qui doit répondre des actes de reproduction.

Pourquoi ? Parce que la capacité de reproduire des œuvres protégées est intégrée dans la conception même du modèle : choix des données d’entraînement, réglage des paramètres, architecture technique. Les utilisateurs, eux, ne font qu’envoyer des prompts, des instructions textuelles qui activent une fonction déjà présente dans le système.

Le tribunal adopte donc une logique de “responsabilité structurelle” : la contrefaçon naît dans la construction du modèle. L’utilisateur n’est ni l’auteur, ni le coauteur de la reproduction ; il ne fait que déclencher un mécanisme conçu par le fournisseur. Les prompts sont qualifiés de neutres juridiquement.

Cette approche rapproche la décision de celle rendue au Royaume-Uni dans l’affaire Getty Images c. Stability AI, tout en révélant une différence importante. Dans le dossier Getty, la justice britannique avait estimé que la preuve d’un stockage effectif des œuvres dans le modèle n’était pas rapportée sur le territoire concerné, ce qui avait conduit à un résultat différent. À Munich, au contraire, la présence des chansons dans l’apprentissage et leur reproduction en sortie ont été établies de manière suffisamment claire pour convaincre le juge.

Ce que cela change pour les titulaires de droits… et pour les acteurs de l’IA

La décision GEMA c. OpenAI constitue une victoire nette pour les titulaires de droits. Elle apporte plusieurs messages forts :

lorsqu’une œuvre est clairement reconnaissable dans les réponses d’un modèle d’IA, la reproduction est présumée ;
la mémorisation dans les paramètres du modèle peut constituer en soi une reproduction au sens du droit d’auteur ;
l’exception de text and data mining a un champ d’application limité : elle ne protège pas les usages qui permettent de régénérer les œuvres ;
la responsabilité repose essentiellement sur le fournisseur du modèle, qui doit maîtriser ses données d’entraînement, ses mécanismes de filtrage et ses capacités de génération.

OpenAI a annoncé interjeter appel, mais ce jugement pose déjà les bases d’un cadre juridique plus clair pour l’intelligence artificielle générative : la restitution d’une œuvre équivaut à sa reproduction, le TDM ne peut servir de paravent lorsque l’IA dépasse le simple traitement analytique, et la conception même du modèle devient le cœur de l’analyse en contrefaçon.

Dans un contexte où de nombreux acteurs de la musique, de l’édition, de l’image ou de la presse s’interrogent sur l’utilisation de leurs catalogues par les IA, cette décision allemande s’inscrit dans un mouvement plus large : celui d’un rééquilibrage en faveur des créateurs et des ayants droit.

Le cabinet Junca & Associés, spécialisé en propriété intellectuelle et industrielle, accompagne les entreprises innovantes, les créateurs et les titulaires de droits face aux enjeux juridiques de l’intelligence artificielle et du numérique. Nous vous aidons à encadrer l’utilisation de vos contenus par les technologies d’IA, à sécuriser vos projets et à défendre efficacement vos droits d’auteur et vos actifs immatériels.

GEMA c. OpenAI : quand la mémoire des modèles d’IA devient une preuve de contrefaçon

GEMA c. OpenAI : quand la mémoire des modèles d’IA devient une preuve de contrefaçon

Junca & Associés à l’honneur dans Le Figaro Magazine

Contrefaçon et concurrence déloyale : la Cour de cassation confirme le cumul des actions.