Lire et analyser en automatique toutes les revues en ligne ? Les enjeux du "text data mining"

Crédit photo : Big oil, de jumpinjimmyjava, licence CC-BY-NC,

Avec le numérique, les usages évoluent. La mobilité est l'exemple le plus connu : désormais on peut accéder de partout, au bureau comme chez soi, aux revues en ligne de son université, à ses résultats d'examen, à ses documents de travail partagés, ou encore aux meilleurs scores de son jeu vidéo préféré. L'augmentation exponentielle des capacités de stockage, de calcul et de traitement par l'informatique est une autre révolution : tout est transformable en données informatiques et donc exploitable par des machines. Quoi de plus naturel alors qu'envisager la lecture, l'analyse et l'exploitation automatique de l'ensemble des publications scientifiques ?

Le text data mining et les revues en ligne scientifiques. Le text data mining, également appelé TDM ou fouille de texte, représente à ce titre l'un des nouveaux gros enjeux de nos abonnements de documentation électronique en matière de soutien à la Recherche. Jusqu'alors, les contenus des abonnements étaient lus par des humains. A présent, ils peuvent être lus (et analysés, traités, etc.) par des machines. Ces possibilités de traitement informatique ouvrent de nouveaux horizons pour les chercheurs :

  • croisement des données issues de différents abonnements,
  • élargissement des corpus de recherche des chercheurs,
  • nouvelles méthodologies d'analyses,
  • repérages de tendances "faibles" (peu repérables par des lectures humaines),
  • etc.

C'est pourquoi de nombreux instituts de recherche dans le monde mettent en place des dispositifs techniques de text data mining. C'est d'ailleurs l'un des objectifs de la future "Bibliothèque scientifique numérique" française : la future plateforme web de la BSN devrait proposer des services de fouilles et traitements automatisés sur les contenus numériques souscrits ou achetés par les bibliothèques. Les contrats signés dans le cadre d'ISTEX, destinés à alimenter cette plateforme, incluent les usages TDM.

Côté publications scientifiques, certains grands éditeurs académiques proposent de commercialiser ces usages jugés "supplémentaires" : on parle de nouvelles licences d'abonnement spéciales text data mining, à payer en plus des abonnements classiques. Cela rappelle l'époque où les fournisseurs faisaient payer en plus les "accès hors campus" des étudiants et enseignants-chercheurs des établissements, alors même que c'étaient les universités qui mettaient en place les solutions techniques d'accès distant.

Outre l'aspect financier, certains éditeurs imposent des restrictions qui dénaturent le text data mining. C'est le cas d'Elsevier dans la proposition de licence nationale (qui est toujours en cours de négociation) : l'accès et l'analyse automatisée des publications Elsevier ne serait autorisée que via l'application informatique proposée par Elsevier par tronçon de 10 000 articles maximum à la fois, avec droits de citation en cas de publication des résultats n'excédant pas 350 mots (1). Ou le cas de Springer qui souhaite connaître le détail du projet de recherche avant d'autoriser (ou non) le data mining (3). N'est-ce pas prendre le risque d'un trop grand poids des éditeurs à la fois dans l'orientation des politiques de recherche et dans la connaissance des projets en cours ?

Arguments des éditeurs, enjeux pour la recherche universitaire, vigilance : tout cela est très bien expliqué dans le communiqué Couperin / ADBU sur l'édition scientifique et le text data mining. Le texte appelle à réviser la législation pour protéger ces usages : intégrer les exceptions d'usages pédagogiques et de recherche dans les droits de propriété intellectuelle (cela couvrirait le TDM), en suivant l'exemple de la Grande Bretagne ou la jurisprudence américaine. Il invite également à refuser les restrictions aux TDM. Par delà la technicité du débat, le text data mining apparait comme un révélateur des enjeux actuels de la collaboration entre les acteurs de la Recherche et les éditeurs commerciaux.

  • Accès direct au Communiqué Couperin / ADBU (PDF)
  • Ajout 17/12/2015 : l'excellent blog/carnet de recherche "Introduction aux humanités numériques" propose une introduction claire et détaillée au "Text Mining : quand le texte devient donnée"

Crédit photo : Big oil, de jumpinjimmyjava, licence CC-BY-NC
(1) et (2) Source : le communiqué Couperin / ADBU, page 4 et 5, qui détaille également ses sources.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *