Le dataspace juridique pour une IA de confiance

Par Jeanne Disset

Il ne se passe pas un jour sans que le milieu juridique ne parle de l’intelligence artificielle et de sa déclinaison « générative », que ce soit pour la fustiger soit pour l’encenser. Les questions de fiabilité, de confidentialité, de propriété, de souveraineté, de productivité et de maîtrise sont au cœur du débat. L’IA s’installe dans le quotidien du juriste, ce qui n’est pas sans troubler les praticiens qu’elle assiste ou remplace. Pourtant, le droit pourrait être l’acmé de l’IA. Et dans ce cadre, le dataspace juridique serait une solution.

La stratégie européenne des données, lancée en 2020, vise à établir un marché unique des données pour renforcer la compétitivité européenne et assurer sa souveraineté en matière de données. Le règlement européen sur l’intelligence artificielle (IA) s’inscrit dans cette logique de marché. Le Data Governance Act (DGA), adopté en 2022 et entré en vigueur en septembre 2023, crée un cadre pour encourager le partage et l’utilisation des données dans l’UE, y compris la mise en place d’ «espaces de données» sectoriels. Ce sont des environnements sécurisés et interopérables permettant le partage, l’accès et le traitement de données provenant de différentes sources - publiques, privées ou de particuliers - avec certaines conditions. Il en existe déjà en éducation, en tourisme… mais pas en droit.

« L’objectif d’un dataspace dans le domaine juridique est de favoriser l’innovation, le partage de données de manière sécurisée, et de respecter les droits des individus et des entreprises », souligne Thomas Saint-Aubin, porte-parole et porteur d’un projet de legal dataspace qui sera présenté à Bpifrance début décembre. C’est un consortium, tout un collectif -auquel chaque acteur du droit peut se joindre encore aujourd’hui- qui va présenter ce projet. « La communauté legaltech française, représentée par l’association Droit.org, Institut Français de l’Information Juridique, associée à la communauté des dataspaces, représentée par le think and do tank Digital New Deal, lance un appel à manifestation d’intérêt (AMI) visant à réunir les acteurs intéressés par la création du tout premier legal dataspace européen. Nous invitons les professionnels du droit (directions juridiques, cabinets d’avocats -petits et grands, notaires…), et leurs associations professionnelles, ainsi que les legaltech à rejoindre ce projet. S’il est accompagné par toute la filière juridique, il a toutes les chances de réussir. Nous souhaitons créer un commun, utile à toute la filière et qui permettra une IA appliquée au droit en toute confiance ».

Mutualiser en sécurisant

Tout part d’un constat : « Pour utiliser l’IA générative dans un contexte professionnel, il existe un travail de fond à réaliser sur la matière juridique en amont : d’abord un travail de choix et d’enrichissement du modèle de fondation (fine-tuning de LLM – large langage model) ; ensuite un travail de sélection et de collecte des données juridiques ouvertes, enrichissement et partage des données internes (CLM – contract lifecyle management, et RAG – Retrieval augmented generation ) ; enfin, un travail d’innovation collaborative et la définition des règles applicables au partage des données (legal data space) ». La visée est bien d’éviter de réinventer la même chose chacun dans son coin, de ne pas se soumettre à l’usage d’un outil créé ailleurs, et de favoriser un commun utile pour tous, pour créer ses propres outils ensuite.

Arno Pons, délégué général du think and do tank Digital New Deal, le soulignait, dans un post LinkedIn récent : « Avec le besoin croissant de données de confiance pour nourrir et développer une IA générative de confiance, les Européens semblent avoir une avance sur les Américains qui découvrent le manque d’une «harmonized data layer» pour accéder aux données privées (les données publiques du web ayant déjà toutes été scrappées). Peut-être est-ce l’occasion pour des secteurs hautement stratégiques de franchir le pas, et de se structurer. Imaginez par exemple que la filière «legal» se saisisse de cette chance ? ».

Mais qu’est-ce qu’une data juridique ? Elle recouvre plusieurs types de données : des normes publiques (codes, guides des autorités, normes françaises et européennes), décisions judiciaires, rapports d’experts, contrats, avis juridiques, informations corporate, fonds doctrinaux… Un ensemble hétérogène d’accès, d’auteurs, de format, et de gestion de droits. À côté des données publiques (normes et jurisprudence), « il s’agit bien de s’appuyer sur la mutualisation des données privées de nos entreprises européennes pour développer une IA juridique souveraine par et pour la filière juridique », précise Thomas Saint-Aubin. Or aujourd’hui, chacun a la maîtrise ses propres données, et l’ensemble doit être trié et normalisé avant même d’être implanté dans une IA. Elles pourront ensuite être partagées, mais chacun doit conserver les siennes et surtout, le dispositif devra respecter tous les aspects de confidentialité, qui sont les enjeux cruciaux du dataspace mais aussi la réponse au problème. Mutualiser les données permettra d’entraîner l’IA. Fiabilité et sécurité pourront ainsi être traitées, voire réglées avec le dataspace. Les RAG internes et un système de « notaire numérique » (qui analyse les droits et autorise les accès) permettront à chacun de rester propriétaire de ses données, de respecter les confidentialités (secret affaires, secret professionnel…) et, finalement, de gagner en compétence avec une IA compliant. Bien nourrir l’algorithme, en quantité et en qualité, permettra de réduire les « hallucinations ». En fin de chaîne, chacun crée ses outils à partir d’un commun solide et fiable, et décline l’IA gen selon ses besoins.

Aux États-Unis, cette mutualisation et ce partage n’a pas eu lieu et les données sont dispatchées chez les différents acteurs juridiques français et européens. En les mutualisant, les acteurs reprennent leur souveraineté et la maîtrise de leur IA.

« Grâce aux briques mutualisées pour la normologie, la gestion des droits (contractualisation des permissions et contraintes liées aux données partagées) et les API facilitant l’exploitation des données par des agents IA, l’objectif est de permettre aux acteurs de développer des assistants IA spécialisés pour les legal operations », conclut Thomas Saint-Aubin. CQFD