Réutilisation de données publiées sous licence ODbL

Le contexte

La DDT produit une partie de ses données en associant à une base métier initialement non géolocalisée un localisant ponctuel issu d'un référentiel d'adresses publié sous licence ODbL par une collectivité locale compétente en matière d'attribution des noms et numéros de voies.

Le référentiel d'adresses compte environ 175 000 enregistrements. Certains travaux de géolocalisation peuvent conduire à reprendre plusieurs milliers voire dizaines de milliers d'adresses, d'autres n'en utiliseront que quelques dizaines.

La licence ODbL permet l'extraction et la réutilisation des données du référentiel, y compris pour la création de nouvelles bases de données. Elle prévoit cependant une clause de « partage à l'identique », stipulant que toute donnée « dérivée » du référentiel doit, dès lors qu'elle fait l'objet d'une diffusion publique, être publiée sous la licence ODbL ou une licence compatible. La licence ouverte, préconisée pour la publication des données des services de l'État, n'est pas compatible avec la licence ODbL et ne peut donc être utilisée dans le cas d'une donnée « dérivée ».

Au regard de la licence, une base de donnée « dérivée » est « une base de données reposant sur la base de données initiale, y compris toute traduction, adaptation, arrangement, modification ou toute autre altération de la base de données initiale ou d'une partie substantielle du contenu, y compris, de manière non limitative, l'extraction ou la réutilisation de la totalité ou d'une partie substantielle du contenu dans une nouvelle base de données ». Ainsi, la DDT doit apprécier le caractère « substantiel » de l'emprunt fait au référentiel pour déterminer si la base résultante est une base de données dérivée et savoir si elle est ou non contrainte de diffuser le résultat sous licence ODbL.

Question et réponses

Sur quels critères la DDT peut-elle s'appuyer pour déterminer si l'emprunt réalisé à la base ODbL est substantiel et, dès lors, si la donnée résultante est soumise à l'obligation de partage à l'identique inhérente à cette licence ?

La licence ODbL indique, sans plus de détail, que le caractère substantiel de l'emprunt s'apprécie aussi bien d'un point de vue « quantitatif » que « qualitatif ».

Pour l'heure, il n'existe pas de jurisprudence sur la réutilisation de données publiées sous licence ODbL permettant d'expliciter ces notions dans le contexte ODbL. En revanche, dans l'affaire The British Horseracing Board Ltd et autres contre William Hill Organization Ltd, la Cour de justice européenne a précisé le caractère substantiel de l'extraction et la réutilisation litigieuses d'une base de données, qui étaient contestées au regard du droit sui generis.

L'arrêt du 9 novembre 2004 indique ainsi que « l'appréciation, sous l'angle qualitatif, du caractère substantiel [...] doit, comme l'appréciation sous l'angle quantitatif, se référer à l'investissement lié à la constitution de la base de données et à l'atteinte portée à cet investissement par l'acte d'extraction et/ou de réutilisation [...] » (point 69).

Cette référence à l'investissement s'entend au regard du droit sui generis, dont l'objet est justement de protéger l'investissement (substantiel) réalisé par le producteur de la donnée, et en vertu duquel le producteur, comme le prévoient les articles L342-1 et L342-2 du code de la propriété intellectuelle, peut choisir de ne pas autoriser la réutilisation des données ou de la soumettre aux conditions définies par une licence – telle la licence ODbL.

L'arrêt précise que :

  • « la notion de partie substantielle, évaluée de façon quantitative, du contenu de la base [...] se réfère au volume de données extrait et/ou réutilisé de la base et doit être appréciée par rapport au volume du contenu total de celle-ci. En effet, si un utilisateur extrait et/ou réutilise une partie quantitativement importante du contenu d'une base de données dont la constitution a nécessité la mise en œuvre de moyens substantiels, l'investissement afférent à la partie extraite et/ou réutilisée est, proportionnellement, également substantiel » (point 70) :

  • « la notion de partie substantielle, évaluée de façon qualitative, du contenu de la base de données se réfère à l'importance de l'investissement lié à l'obtention, à la vérification ou à la présentation du contenu de l'objet de l'acte d'extraction et/ou de réutilisation, indépendamment du point de savoir si cet objet représente une partie quantitativement substantielle du contenu général de la base de données protégée. Une partie quantitativement négligeable du contenu d'une base de données peut en effet représenter, en termes d'obtention, de vérification ou de présentation, un important investissement humain, technique ou financier » (point 71).

En d'autres termes, plus l'investissement aura été important, moins il sera possible d'effectuer des extractions considérées comme non substantielles.

Il existe d'autres décisions de justice en droit français qui portent sur des bases de données non ODbL mais qui peuvent s'appliquer au cas. Il est ainsi possible de citer :

  • la décision du 18 juin 2003 de la Cour d'Appel de Paris, dans l'affaire S.A. Credinfor contre Artprice.com, selon laquelle la réutilisation de 36 000 éléments d'une base de données en comptant 184 000 (soit environ 20 %) présentait un caractère quantitativement substantiel ;

  • la décision 09/28753 du 27 juin 2012 de la Cour d'Appel de Paris, qui a considéré que présentait un caractère substantiel, et constituait dès lors une atteinte au droit sui generis du producteur d'une base de données répertoriant des sites autorisés aux enfants sur Internet, une extraction résultant en une base de données présentant un pourcentage d'identité de 35,05 % des adresses URL complètes à l'octet près, soit mille adresses, et de 59,82 % pour les noms de domaine, soit 974 noms de domaine.

Ces exemples de jurisprudence sont cités à des fins illustratives et ne sont pas normatifs. Des décisions divergentes d'une affaire à l'autre sont par ailleurs possibles en la matière, considérant que la substantialité est un élément de fait dont la Cour de cassation ne contrôle pas l'appréciation. Toutefois, sur la base des décisions précitées il est probable qu'une extraction supérieure à 20 ou 30 % du référentiel d'adresses serait considérée comme substantielle par une juridiction. Dans ces conditions, il sera préférable pour la DDT de recourir à une licence ODbL.

Surtout, il doit être noté que la licence ODbL précise que «  l'extraction et la réutilisation systématique et répétée de parties non substantielles du contenu est susceptible d'être considérée comme l'extraction ou la réutilisation d'une partie substantielle du contenu », ce qui suggère que la DDT doit considérer l'ensemble des géolocalisations réalisées à partir du référentiel pour en apprécier la substantialité, et non chaque base résultante indépendamment.

Dès lors, considérant que la DDT est fréquemment amenée à géolocaliser des données à partir du référentiel d'adresses publié sous licence ODbL, il peut être admis que la réutilisation qu'elle fait de cette base est – ou deviendra à court terme – globalement substantielle, et que toutes les données produites à partir de ce référentiel d'adresses devraient par conséquent être rediffusées sous licence ODbL.

Qu'en serait-il dans le cas de zonages délimités par calage sur des linéaires de voirie publiés sous licence ODbL, lorsqu'il n'est pas possible de reconstituer la donnée source à partir de la donnée résultante ?

La licence ODbL définit une base de donnée dérivée comme « une base de données reposant sur la base de données initiale, y compris toute traduction, adaptation, arrangement, modification ou toute autre altération de la base de données initiale ou d'une partie substantielle du contenu, y compris, de manière non limitative, l'extraction ou la réutilisation de la totalité ou d'une partie substantielle du contenu dans une nouvelle base de données ».

Ainsi, toute base produite au moyen d'une partie substantielle de la base initiale est considérée comme une base dérivée, indépendamment des caractéristiques du résultat. En particulier, la licence ODbL ne prévoit en rien qu'une base résultante ne devrait pas être considérée comme « dérivée » au prétexte que les enregistrements de la base source ne seraient pas directement identifiables ou reconstituables.

La réponse à la première question reste donc valable dans ce cas.