Les nouveaux modes d'évaluation de la recherche

De SCI1014
Sauter à la navigation Sauter à la recherche

L’évaluation par les pairs

La pierre angulaire du contrôle de la qualité et de la pertinence en science est l’évaluation par les pairs (peer-review). Cette évaluation est effectuée, généralement sans rémunération, par des chercheurs spécialistes du domaine (le plus souvent deux, mais parfois trois ou quatre). Elle est employée pour fonder diverses décisions :

  • acceptation ou refus des articles de revues scientifiques (appelées aussi « revues avec comité de lecture ») et de la plupart des autres types de textes scientifiques : actes de congrès ou colloques, livres (monographies ou ouvrages collectifs);
  • financement de projets ou d'infrastructures (centres, laboratoires) de recherche;
  • octroi de prix et de récompenses;
  • décisions de type professionnel qui jalonnent la carrière des chercheurs : embauche, renouvellement de contrat, octroi de permanence ou de promotion.

On reconnaît fréquemment la vertu de ce mode d'évaluation, dont l'usage s'est généralisé relativement récemment, soit vers le milieu du 20e siècle pour ce qui touche les publications scientifiques[1]. En font foi, par exemple, les remerciements bien sentis que les auteurs adressent souvent à leurs évaluateurs, soulignant la pertinence et l'utilité des commentaires reçus.

Mais on en déplore aussi souvent les limites et les inconvénients. Les principales critiques qu’on lui adresse sont les suivantes.

  • Sauf pour les décisions de type professionnel, cette évaluation est généralement réalisée de manière anonyme, selon la modalité dite du simple insu, où l'auteur ou le candidat ne connaît pas l'identité des évaluateurs. Cette pratique, contrairement à la modalité du double insu (l'identité de l'auteur est n'est alors pas révélée à l'évaluateur, ce que l'on retrouve surtout en sciences sociales), protège mal contre de possibles biais dans l’évaluation, et rend plus difficile l'identification par les auteurs des éventuels conflits d'intérêt entre les évaluateurs et eux.

    Cette question de l’anonymat ne fait pas cependant pas consensus. Certains soutiennent que le double insu devrait être la norme, même si on peut penser qu'il est difficile à implanter en pratique, car il est souvent possible de reconnaître l’auteur d’un texte même quand son nom n’apparaît pas, surtout s’il s’agit de travaux spécialisés dont les caractéristiques sont le propre d’un chercheur, ou du moins d’une équipe ayant déjà publié sur le sujet. D’autres, au contraire, estiment que les auteurs devraient connaître le nom des évaluateurs, ce qui forcerait ceux-ci à plus de rigueur, car ils ne pourraient plus se dissimuler sous l’anonymat. Cependant, ou peut penser que cela pourrait rendre certains évaluateurs, par exemple de nouveaux chercheurs, craintifs à l’idée de critiquer des chercheurs établis, ou encore des collègues qui pourraient à leur tour avoir une influence sur leur carrière.

  • L'évaluation est réalisée de manière confidentielle, le rapport d'évaluation n'étant connu que de l'auteur, des évaluateurs et de l'instance qui mène l'évaluation et, sur cette base, prend la décision. Cela réduit l'incitation pour les évaluateurs d'effectuer des évaluations rigoureuses et en profondeur, où toutes les conclusions doivent être bien étayées. Pour l'évaluation des textes, cela empêche également les futurs lecteurs de connaître les enjeux soulevés par les évaluateurs, qui pourraient les amener à voir autrement certains aspects des articles.

  • Les critères utilisés dans l’évaluation ne portent pas seulement sur la qualité scientifique (rigueur du raisonnement, respect des principes, règles et pratiques du domaine), qui peuvent déjà faire l'objet d'interprétation, mais aussi sur des éléments beaucoup plus subjectifs comme la pertinence ou l'originalité, l'intérêt pour le domaine, ou encore le potentiel de l'influencer, certainement difficile à établir a priori. De nombreux articles refusés dans un premier temps en vertu de ces critères sont soumis à d’autres éditeurs, pour être évalués de nouveau, parfois à plusieurs reprises pour, en bout de ligne, finir par être acceptés et publiés. Cela accroît globalement le nombre d'évaluateurs requis pour chaque article publié, alors que le nombre sans cesse croissant de chercheurs et d'articles soumis rend déjà difficile leur recrutement. Or, les exemples abondent d'articles qui, refusés dans un premier temps, ont vu leur pertinence reconnue une fois publiés, ou sont même devenus des classiques.

  • Pour les évaluations des chercheurs, on déplore l'accent mis sur le nombre d'articles scientifiques, de même que sur le prestige ou la qualité perçue des revues où ils ont été publiés, plutôt que sur leur qualité intrinsèque, difficile à évaluer faut-il préciser. On déplore aussi le peu de poids accordé, particulièrement dans les domaines scentifiques, aux contributions autres que les articles de revues.

Certains vont jusqu’à suggérer l’élimination complète de l’évaluation par les pairs, dans le cas des textes scientifiques, pour la remplacer par des procédures se déroulant en aval de la publication plutôt qu'en amont. Mais la plupart des critiques proposent plutôt des façons de l’améliorer, soutenant que si cette pratique n’est sans défauts, loin de là, elle est probablement la moins mauvaise qu’on puisse imaginer, et que l’abolir reviendrait à « jeter le bébé avec l’eau du bain »[2].

Dans cette optique, on propose depuis assez longtemps des mesures limitées, à la marge pourrait-on dire, destinées à en pallier certaines faiblesses. Par exemple, des consignes claires et détaillées aux évaluateurs quant au sérieux de l'opération et aux critères à employer; des invitations aux comités décisionnels à adopter des approches moins quantitatives et de faire preuve d'ouverture à l'égard de la variété des contributions des chercheurs. Il est cependant difficile de savoir si ces mesures ont pu améliorer la situation.

Plus récemment, quelques-unes des idées mises de l'avant par la science ouverte sont venues apporter une réponse originale à ces problèmes, du moins pour les articles scientifiques.

La science ouverte et la réforme de l’évaluation par les pairs

Tout d'abord, plusieurs revues, en accès libre ou non, ont expérimenté un système de commentaires ouverts (open peer commentary) où, comme dans les blogues, les lecteurs sont invités à inscrire leurs commentaires à la suite des articles. Toutefois, la conclusion générale de ces expérimentations, dont plusieurs d'ailleurs n'ont pas eu de suite, est que les articles reçoivent très peu de commentaires[3].

Quelques revues ont appliqué, avec succès, d'autres modifications, comme les deux exemples ci-dessous.

  • PLOS One, une revue scentifique à caractère général créée en 2003, a renoncé explicitement aux critères reliés à la pertinence, comme l’importance pour le domaine et l’originalité. Cela a résulté en un taux d’acceptation de 70 %, contre 20 % pour les revues plus spécialisées du même éditeur, comme PLOS Biology, PLOS Medicine. Cette revue est devenue à la fin des années 2000 celle qui publie annuellement le plus grand nombre d’articles, atteignant un sommet de plus de 31 000 articles en 2013.
  • Climate of the Past publie depuis 2001 ses articles après un filtrage minimal (effectué par un membre du comité de rédaction) et les accompage non seulement de commentaires de lecteurs (peu nombreux), mais surtout des rapports des évaluateurs (anonymes ou non, selon le choix de chacun) et des répliques des auteurs à ceux-ci.

En 2012, la Public Libary of Science (PLOS), leader dans la publication en accès libre, de même qu'une douzaine de chercheurs, à l'invitation de la revue Frontiers in Computational Neuroscience, y allaient de leurs suggestions, remarquablement cohérentes malgré certaines divergences. On y propose [4] ,[5] :

  • de rendre l’évaluation par les pairs totalement transparente;
  • de ne plus en faire un filtre préalable à la publication;
  • de la compléter par un système parallèle de mesure et d’évaluation continue a posteriori, où :
  • la qualité des articles est évaluée par une multitude d’individus, dont la crédibilité (comme évaluateurs) est établie et quantifiée;
  • l’évaluation de la pertinence se fonde sur le fait d’effectivement susciter un intérêt, donc en premier lieu d'être lu (ou du moins téléchargé), puis d’influencer le domaine, ce qui se traduit par de futurs commentaires et citations, compilés sur une longue période.

À ceux qui s’inquiètent de voir ainsi les chercheurs se noyer dans une mer de textes médiocres, ou carrément erronés, on rappelle l’efficacité des systèmes analogues déjà appliqués dans le web.

Plus récemment, dans le cadre du projet européen OpenAIRE, on a proposé une définition de l'évaluation par les pairs ouverte (open peer review), sur la base de nombreux travaux récents sur la question.

L'évaluation par les pairs ouverte est un concept multidimensionnel désignant diverses manières, non mutuellement exclusives, d'adapter les pratiques d'évaluation par les pairs en fonction des principes de la science ouverte, ce qui inclut notamment rendre publique l'identité des auteurs et des évaluateurs, publier les rapports d'évaluation et élargir la participation au processus d'évaluation.

Plus précisément, les principales caractéristiques de l'évaluation par les pairs ouverte sont :

  • les identités ouvertes : les auteurs connaissent les noms des évaluateurs, et vice-versa;
  • les rapports ouverts : les rapports d'évaluation sont publiés avec les articles;
  • la participation ouverte : la communauté au sens large peut participer au processus d'évaluation;
  • les prépublications ouvertes : les manuscripts sont rendus disponibles (par exemple via des répertoires comme ArXiv) avant toute procédure formelle d'évaluation;
  • les commentaires ouverts sur la version finale : la version officielle finale, telle que publiée, peut faire l'objet d'évaluation ou de commentaires;
  • les plateformes ouvertes : l'évaluation et la publication sont découplées, c.-à-d. que l'organisation responsable de l'évaluation n'est pas la même que celle qui gère la publication.[6]

Il va de soi que de telles mesures ne peuvent atteindre leur plein potentiel que si les articles sont disponibles en accès libre.

L’évaluation de la recherche et des chercheurs

Un autre enjeu, relié au précédent, touche l’évaluation des chercheurs, que ce soit de manière individuelle ou collective, par exemple pour l'évaluation des regroupements de chercheurs (en équipes, laboratoires, centres ou réseaux; voire établissements ou pays).

Il faut tout d’abord préciser que la publication d’articles scientifiques de qualité et pertinents est un des principaux, sinon le principal critère employé pour ces évaluations, ce qui est d’ailleurs remis en question par les promoteurs de la science ouverte comme Nielsen, qui soulignent que d’autres types de contributions, tels les blogues et les wikis scientifiques, devraient être considérés.

Avec le système actuel binaire, un article est accepté ou refusé par une revue ou une autre sans que les lecteurs connaissent la teneur des évaluations qui ont fondé cette décision. Les utilisateurs doivenet donc reporter l’évaluation de la qualité et de la pertinence des articles publiés sur les revues qui les ont acceptés. Mais cela ne fait que dévier la question : qu’est-ce qu’une « bonne » revue?

L’évaluation des revues

Il est vrai qu’il existe dans chaque domaine de recherche un certain consensus sur la qualité relative des revues, notamment lesquelles sont les plus prestigieuses. Un article publié dans une revue générale comme Science ou Nature, ou encore dans la revue la plus prestigieuse d'un domaine particulier, procurera ainsi beaucoup de reconnaissance à un chercheur[7]. Cependant, ce système informel est très peu précis pour ce qui est de la majorité des revues, dont on se doute bien qu'elles se situent le long d'un spectre allant de bonnes à médiocres (sans compter certaines revues carrément frauduleuses[8]).

On emploie donc très souvent une mesure objective de ce qu’on peut appeler l’influence d’une revue, fondée sur les citations que reçoivent en moyenne les articles qui y paraissent, l'hypothèse étant que les articles pertinents et de qualité seront cités davantage.

La plus ancienne de ces mesures (et toujours la plus utilisée) est le facteur d’impact (FI, impact factor ou IF en anglais), défini comme le nombre de fois qu’ont été cités, en moyenne, au cours d’une année donnée, les articles parus dans la revue aux cours des deux années précédentes.

Cette mesure est fondée sur un nombre assez grand mais somme toute limité de revues (environ 11 000, dont 8 500 en sciences) et n’est pas accessible librement, car elle est compilée par une entreprise privée, Thomson Reuters). Ainsi, on peut obtenir le FI d’une revue individuelle, mais la liste complète est réservée aux abonnés. D’autres mesures, dont l’indice SJR (SCImago Journal Ranking), incluent un plus grand nombre de revues, règlent certains problèmes techniques inhérents à la simplicité du calcul du FI, et sont offertes en accès libre. Ce caractère non public (du moins pour certaines d'entre elles) n’est que l’une des critiques qu’on peut leur adresser.

On montre ainsi que les revues peuvent employer diverses stratégies (et certaines le font effectivement) pour accroître de manière quelque peu artificielle leur facteur d'impact[9]. On peut aussi invoquer la fragilité du lien entre la qualité d'un article et le nombre de citations qu'il reçoit, de même qu’entre sa pertinence et le nombre de citations qu’il reçoit à court terme. D'une part, certains types d'articles, ou des articles traitant de certains sujets ou certaines dimensions, sont cités davantage, ou le sont à un rythme différent. D'autre part, parmi les rôles que peuvent jouer les références, certains ont peu à voir avec la reconnaissance de la qualité ou de la pertinence des articles cités[10]. Plus fondamentalement, ces critiques remettent en question l'utilisation exclusive d'un indicateur portant avant tout sur l'utilité à court terme.

Mais même si l’on admet que les indicateurs liés au nombre de citations fournissent une idée de la qualité et de la pertinence générale, ou moyenne, des articles d’une revue, on fait face à des problèmes supplémentaires lorsqu’on se sert de ce type d’indicateur non pour comparer des revues, mais les articles qu’un chercheur (ou un groupe de chercheurs) a publiés dans diverses revues.

L’évaluation des chercheurs

Pour évaluer un chercheur ou un groupe sur le plan des publications, on peut bien sûr compter le nombre total d’articles où apparaît son nom (ou ceux des membres du groupe), mais il faut tenir compte de la qualité de ces articles. Cette tâche est loin d'être triviale; il faudrait en principe qu’une personne compétente parcoure tous les articles pour les juger. Mais on a trouvé une solution de remplacement très économique : le facteur d’impact, soit comme seuil (en deça duquel on ne tient compte d’un article), soit comme facteur de pondération des articles individuels.

Cependant, cette approche présente des problèmes sur le plan conceptuel, liés à des considérations statistiques. La distribution du nombre de citations des articles est très asymétrique : une petite proportion d’articles reçoit une bonne partie des citations, alors que la plupart sont sont peu cités, ou même pas du tout, surtout quand on ne considère qu’un petit nombre d'années. Et cela vaut quel que soit le facteur d’impact (ou autre indicateur) de la revue. Dans ces conditions, on peut démontrer mathématiquement, tout contradictoire cela puisse-t-il paraître, qu'entre deux articles, celui qui a été publié dans une revue avec un facteur d’impact plus élevé n'est pas nécessairement plus cité qu'un autre; il peut même avoir une probabilité plus faible d’avoir été cité[9].

Tout ce qu’on peut soutenir est qu’un chercheur qui publie en général ses articles dans des revues à facteur d’impact plus élevé présente une probabilité plus grande d’avoir vu ses articles cités. Mais les probabilités ne sont que... des probabilités; une situation donnée peut s’en écarter considérablement, surtout si l’on considère des nombres modestes comme quelques dizaines d'articles, ou moins.

On a donc suggéré de remplacer les données associées aux taux de citation moyen des articles de chaque revue par le nombre de citations des articles eux-mêmes. Le moteur de recherche Google Scholar intègre une telle donnée, avec le bémol qu’au contraire des algorithmes de calcul des facteurs d’impact, il n’élimine pas les autocitations. Et pour quantifier l’ensemble de la production d’un chercheur (ou d'un groupe), on a proposé des mesures de synthèse fondées sur le nombre de citations à chacun des articles; la plus populaire est l’indice h.

Vers de nouvelles mesures d'utilité, d'influence... et de qualité

La plus récente proposition, issue des principes et pratiques de la science ouverte, consiste à combiner à cet indicateur, qui conserve tout de même sa valeur, d’autres mesures de pertinence (ou de notoriété), appelées altmetrics[11]. On songe ici aux données de téléchargement, que l'on peut voir comme une estimation du taux de lecture, ainsi qu’à toutes sortes d'indicateurs d'utilité ou d’influence, comme le téléchargement ou la référence à des ensembles de données ouvertes liées à l'article, les mentions ou commentaires dans les blogues ou sur Twitter, l'ajout dans des sites de partage de données bibliographiques (comme Mendeley et Zotero).

Poussant encore plus loin l'intégration de concepts propres au web social, on pourrait envisager des systèmes d'évaluation collective ou de recommandation, liés à la participation de la communauté dont il était question plus haut en pour la réforme de l'évaluation par les pairs, ou encore d'analyse automatique du contenu des mentions et commentaires colligés à travers le web, afin d'en extraire des indices de la qualité des documents discutés.

Nous ne sommes qu’à l’aube de cette nouvelle étape. L’avenir nous dira, de toutes ces nouvelles pratiques, lesquelles finiront par s’imposer, le cas échéant.

Notes et références

  1. Michael Nielsen, « Three myths about scientific peer review », sur le blogue de l'auteur, 8 janvier 2009 (consulté le 23 janvier 2014).
  2. Pour se faire une idée des vertus et des failles de l'évaluation par les pairs, voir les commentaires rapportés par des auteurs ayant vécu l'expérience, dans le site Scirev.
  3. Voir, par exemple, « Overview: Nature's peer review trial », Nature Web Focus, décembre 2006. [lire en ligne]
  4. Nikolaus Kriegeskorte, Alexander Walther et Diana Deca, « An Emerging Consensus for Open Evaluation: 18 Visions for the Future of Scientific Publishing », Frontiers in Computational Neuroscience, vol. 6, 2012, p. 94. [lire en ligne]
  5. Catriona MacCallum, « Openly Streamlining Peer Review », sur le blogue PLOS BIOLOGUE, 3 août 2012.
  6. Traduction et lègère adaptation d'un extrait de Tony Ross-Hellauer, « Defining open peer review: Part three – A community endorsed definition », sur le blogue OpenAIRE, 6 décembre 2016.
  7. Il est utile de mentionner que la majorité des articles soumis à ces revues (60 % pour Nature) sont rejetés d’emblée par les membres du comité de rédaction sur la base de critères de pertinence, sans même être soumis à des évaluateurs externes (qui pourront aussi recommander le rejet sur la base des mêmes critères). Une des conséquences de cet état de fait est qu’il est arrivé que des articles publiés dans ces revues parce que jugés particulièrement pertinents ou originaux se soient révélés erronés, voire frauduleux par la suite.
  8. On songe ici notamment aux revues publiées par certains éditeurs en accès libre qualifiés de « prédateurs » (voir L'accès libre aux documents de recherche).
  9. a et b Robert Adler, John Ewing et Peter Taylor, « Citation statistics », sur le site de l’International Mathematical Union (IMU), 2008.
  10. Marc Couture, « Le rôle et la présentation des références dans les textes scientifiques », sur le site du cours SCI 1013 de la TÉLUQ, texte A8.
  11. Stacey Konkiel, « Altmetrics: A 21st-Century Solution to Determining Research Quality », Online Searcher, juillet/août 2013. [lire en ligne] Voir aussi le site Altmetrics.