Données de la recherche, quel partage ?

Partager les données de la science, une question au moins autant culturelle que technique...

Après les publications, les données scientifiques publiques sont aujourd’hui au cœur de la science ouverte. En France, les plans des organismes se suivent (et se ressemblent un peu), l'ANR demande depuis 2019 que les projets qu'elle finance prévoient des plans de gestion de données, le décret sur l'intégrité scientifique de fin 2021 impose aux établissements d'assurer la bonne conservation des données, la plateforme Recherche Data Gouv doit ouvrir au printemps, etc. Bref, les choses s'accélèrent.

Précieuses données

C'est que, à l'heure de la big science et de la science ouverte, tout incite à une plus grande ouverture des données de la recherche. C'est d'abord une nécessité pour la qualité de la science elle-même, comme l'observe au début de l'émission Hugo Catherine, animateur de communautés d'expertise numérique à l'IRD : "Partager ses données, c'est renforcer la qualité des travaux scientifiques, en facilitant le travail des relecteurs et la reproductibilité des travaux".

Car, précise Jean-Michel Parret, responsable du service OPIDoR du CNRS, avec la complexification de la science, connaitre la seule méthode qui a conduit aux résultats d'une étude ne suffit plus.

Sans oublier, ajoute Alina Danciu, data manager au CDSP de Sciences Po, que partager ses données, c'est donner à d'autres la possibilité de les exploiter d'une façon qui n'était pas imaginée au moment où elles furent recueillies. D'autres chercheurs poursuivant des objectifs scientifiques différents peuvent ainsi y trouver leur compte.

Et pas seulement, complète Antoine Blanchard, consultant science ouverte à Datactivist. Des acteurs non académiques peuvent aussi utilement les exploiter. Qu'on songe, par exemple, au dispositif Covid Tracker, exemple de "médiation entre la donnée brute produite et nous, les citoyens".

Obstacles au partage

Mais si tout semble plaider pour le partage des données de la recherche publique, cette ouverture reste encore timide, freinée par des obstacles principalement culturels et techniques.

Culturels, d'abord. Toutes les chercheuses et tous les chercheurs - notamment en SHS - n'ont pas conscience de détenir de telles "données", qu'ils imaginent souvent réservées aux sciences comme l'informatique ou l'astronomie.

Et, quand ils ont conscience d'en détenir, nombre de chercheurs ont développé un sentiment de paternité - et parfois même de propriété - à l'égard des données recueillies parfois difficilement. Ajouté à la crainte de les voir récupérées par une équipe de recherche concurrente, mais mieux mieux dotée, ce sentiment ne pousse guère à la mise en commun.

A ces obstacles s'en ajoutent d'autres, plus techniques. Pour beaucoup de chercheurs, la volonté de protéger la vie privée des personnes interviewées lors d'enquêtes, par exemple, constitue à leurs yeux un véritable obstacle. Il est pourtant possible de les anonymiser.

De même, les méta-données, si précieuses pour qualifier et classer les données elles-mêmes, sont souvent bien pauvrement renseignées, essentiellement faute de temps et d'habitude, souligne Jean-Michel Parret. Qui file la métaphore automobile : "les méta-données, c'est la carte grise ; la plaque d'immatriculation, c'est le Digital Object Identifier (DOI)".

Mais aucun de ces obstacles, en réalité, n'est insurmontable. Comme le souligne Hugo Catherine, le temps passé au début d'un projet de recherche à concevoir, en suivant les principes FAIR, un plan de gestion de données, en fait gagner beaucoup ensuite.

Quant à la compétition internationale qui empêcheraient, aux yeux de certains, de partager ses données, c'est oublier un peu vite, comme le souligne Antoine Blanchard, toutes les collaborations internationales fructueuses qui ont été possibles grâce à la mise en commun de données.

Défis

Les défis demeurent nombreux. Quelques-uns ont été cités à la fin de l'émission, comme le nombre insuffisant de documentalistes de la donnée. Il faudrait, rappelle Jean-Michel Parret, en former bien davantage. Problème : il n'existe pas réellement de cursus de formation idoine.

Autre défi, la formation des nouvelles générations de chercheurs, qui parait essentielle. Chloee Fabre, responsable du service de diffusion et de valorisation de la production académique de l’Université Toulouse – Jean Jaurès, donne l'exemple de la formation doctorale qu'elle dirige. Dans celle-ci, les doctorants sont invités à bâtir sur trois ans - la durée de leur thèse - la gestion des données qu'ils collectent au gré de leurs travaux.

Pour beaucoup, l'un des leviers réside dans l'évaluation des chercheurs. En évaluant leur soin apporté à la conservation, à la standardisation et au partage de leurs données, elle pourrait conduire à un changement progressif des pratiques.

C'est justement le sens de l'appel de Paris sur l'évaluation de la recherche de début février, qui recommande notamment que l'évaluation récompense "non seulement les productions de la recherche, mais aussi (...) valorise (...) le partage des résultats et des méthodologies de recherche".