Processus d’évaluation : « Etre premier en ordre de passage vous pénalisera »

Processus d’évaluation : « Etre premier en ordre de passage vous pénalisera »

Une expérience américaine montre que les évaluateurs octroient de meilleurs scores au fil du temps, observe Charles Cuvelliez, professeur en communication, dans une tribune au « Monde ». Un biais cognitif qui pèse lourdement sur la rationalité de nos décisions.

Si décider de votre horaire de passage à un concours vous a toujours angoissé, vous avez bien raison car c’est loin d’être un détail sans influence sur le résultat. C’est la leçon d’expériences menées par deux chercheurs de l’université de Virginie, qui ont mis en évidence un nouveau biais cognitif (« Do Evaluations Rise With Experience ? » Kieran O’Connor, Amar Cheema, Psychological Science n° 29/5, 1er mars 2018).

Ils ont demandé à un groupe de 168 étudiants de donner un score à dix histoires qu’on leur demandait de lire, à raison d’une histoire par jour, de façon à étaler le processus d’évaluation dans le temps. L’ordre dans lequel les histoires leur étaient données différait selon les étudiants. Or, ce sont les histoires lues dans les derniers jours qui ont eu le meilleur score, peu importe laquelle.

En fait, la note attribuée avait tendance à monter jour après jour. On leur a ensuite demandé, au fur et à mesure qu’ils avançaient dans leur évaluation des dix histoires, de juger la difficulté de cette tâche d’évaluation. Véracité, style, contenu, genre, chacun avait des critères d’évaluation différents, mais tous étaient d’accord pour dire que la tâche devenait plus facile avec le temps.

C’est ce qui fait penser aux chercheurs que notre cerveau confond inconsciemment la facilité à donner un score avec le score lui-même, comme si quelque chose qui devient (plus) facile à évaluer était forcément meilleur ! Et si l’on peut parler de « biais cognitif », c’est parce que les participants étaient persuadés d’évaluer de la même manière au début du test comme à la fin.

L’objectivité existe-t-elle ?

Si on fait le bilan de toutes les situations où une estimation s’étale dans le temps, cette expérience est riche d’enseignements. Passer le premier ou le dernier à l’épreuve orale, c’est un dilemme auquel tous les étudiants font face.

Source : Le Monde

 

Just think: The challenges of the disengaged mind (les défis de l'esprit désengagé)

Just think: The challenges of the disengaged mind

In 11 studies, we found that participants typically did not enjoy spending 6 to 15 minutes in a room by themselves with nothing to do but think, that they enjoyed doing mundane external activities much more, and that many preferred to administer electric shocks to themselves instead of being left alone with their thoughts. Most people seem to prefer to be doing something rather than nothing, even if that something is negative.

Just think: les défis de l'esprit désengagé

Dans 11 études, nous avons constaté que les participants n’aimaient généralement pas passer de 6 à 15 minutes dans une pièce par eux-mêmes avec rien d'autre à faire que penser, qu'ils ont préferé faire des activités mondaines, et que beaucoup ont préféré s'administrer des chocs électriques à eux-mêmes au lieu d'être laissés seuls avec leurs pensées. La plupart des gens semblent préférer faire quelque chose plutôt que rien, même si ce quelque chose est négatif.

Reference :

Wilson, Timothy D., et al. "Just think: The challenges of the disengaged mind." Science345.6192 (2014): 75-77.
Click here to view the paper

https://drive.google.com/open?id=1i4a25v3ZHI0zbMRrff688KhbI9jpEKgQ

De la tyrannie des chiffres : De l’excès de mesure… au paradoxe de la mesure

De la tyrannie des chiffres

On n’a pas attendu le numérique pour produire des métriques, mais celui-ci a incontestablement simplifié et amplifié leur production. Quitte à produire un peu n’importe quelles mesures puisque celles-ci semblent désormais accessibles et ajustables en quelques clics. On connaît la rengaine : « ce qui ne peut être mesuré ne peut être géré » (même si la formule de Peter Drucker est en fait plus pertinente que ce que nous en avons retenu). Est-ce pour autant qu’on ne gère que ce que l’on sait chiffrer ?

Non. C’est en tout cas ce que répond le stimulant petit livre du professeur d’histoire de l’université catholique d’Amérique, Jerry Z. Muller(@jerryzmuller), The Tyranny of Metrics (La tyrannie des métriques, Princeton University Press, 2018, non traduit), qui se révèle être un très bon petit guide pour nous inviter à prendre un peu de recul sur notre obsession pour les chiffres.

Le propos de Jerry Muller relève pour beaucoup du simple bon sens.

« Il y a des choses qui peuvent être mesurées. Il y a des choses qui valent d’être mesurées. Mais ce que nous pouvons mesurer n’est pas toujours ce qui vaut d’être mesuré ; ce qui est mesuré peut n’avoir aucune relation avec ce que nous voulons vraiment savoir. Le coût de la mesure peut-être plus fort que ses bénéfices. Les choses que nous mesurons peuvent nous éloigner des choses dont nous voulons vraiment prendre soin. Et la mesure nous apporte souvent une connaissance altérée – une connaissance qui semble solide, mais demeure plutôt décevante. »

De l’excès de mesure… au paradoxe de la mesure

Relier la responsabilité aux mesures et à leur transparence s’avère souvent décevant. La responsabilité signifie être responsable de ses actions. Mais, par un glissement de sens, la responsabilité signifie souvent démontrer une réussite via des mesures standardisées, comme si seulement ce qui était mesurable comptait vraiment. Pour Muller, nous sommes obsédés par les chiffres. Nous avons une pression irrépressible à mesurer la performance, à en publier les chiffres, et à récompenser les performances depuis ceux-ci, quand bien même l’évidence nous montre que cela ne fonctionne pas si bien. Pour Muller, notre problème n’est pas tant la mesure que ses excès. Trop souvent nous préférons substituer des chiffres, des mesures, à un jugement personnel. Trop souvent le jugement est compris comme personnel, subjectif, orienté par celui qui le produit, alors que les chiffres, en retour, eux, sont supposés fournir une information sûre et objective. S’il y a beaucoup de situations où prendre des décisions basées sur une mesure est supérieur au jugement basé sur l’expérience… reste que les chiffres sont utiles quand l’expérience de quelqu’un est limitée pour développer son intuition. Certes, comme le montrait le livre Moneyball, l’analyse statistique est parfois capable de mesurer des caractéristiques négligées qui sont plus significatives que celles sur lesquelles s’appuie l’expérience et l’intuition. Mais ce n’est pas toujours le cas. Trop souvent, les métriques sont contre-productives, notamment quand elles peinent à mesurer ce qui ne l’est pas, à quantifier ce qui ne peut l’être.

Muller montre par de nombreux exemples comment nous nous ingénions à contourner les mesures, à l’image des hôpitaux britanniques qui avaient décidé de pénaliser les services dont les temps d’attente aux urgences étaient supérieurs à 4 heures. La plupart des hôpitaux avaient résolu le problème en faisant attendre les ambulances et leurs patients en dehors de l’hôpital ! Comme le rappelle la loi de Goodhart : « lorsqu’une mesure devient un objectif, elle cesse d’être une bonne mesure. » Plus qu’une obsession, nous sommes coincés dans un paradoxe de la mesure. Plus nous en produisons, plus elles sont précises, plus nous nous ingénions à les contourner à mesure qu’elles ne parviennent pas à remplir ce qu’elles étaient censées accomplir. Pour Muller, si les chiffres sont potentiellement des outils précieux, leurs vertus nous a été survendu, et leurs coûts toujours sous-estimés, comme l’explique le sociologue Jérôme Denis dans son livre Le travail invisible des données, qui souligne combien celles-ci sont toujours travaillées, « obtenues »… et donc que les standards qu’elles sont censées produire ont toujours un caractère « potentiellement conflictuel » !

La transparence des chiffres n’induit pas la responsabilité

Pour Muller, l’obsession des métriques repose sur : la croyance qu’il est possible et désirable de remplacer le jugement acquis par l’expérience personnelle et le talent, avec des indicateurs numériques de performance comparative basés sur des données standardisées ; la croyance que rendre ces mesures publiques (c’est-à-dire transparentes) assure que les institutions effectuent leurs buts (c’est-à-dire leur responsabilité) ; la croyance que la meilleure façon de motiver les gens dans les organisations est de les attacher à des récompenses ou des pénalités depuis ces mesures de performance (que les récompenses soient monétaires ou réputationnelles). L’obsession des métriques repose sur la persistance de ces croyances malgré les conséquences négatives qu’elles entraînent quand elles sont mises en pratique. Mais, si cela ne fonctionne pas, c’est d’abord et avant tout parce que tout ce qui est important n’est pas toujours mesurable et beaucoup de ce qui est mesurable n’est pas toujours important. À nouveau, toute mesure utilisée comme objectif, utilisée comme outil de contrôle devient douteuse. Par nature, toute mesure sera détournée ! Pire, rappelle Muller : forcer les gens à se conformer à des objectifs mesurés à tendance à étouffer l’innovation et la créativité, et renforce la poursuite d’objectifs à court terme sur ceux à long terme. La mesure a fait plus de progrès que le progrès lui-même, ironise Muller.

Le petit livre de Jerry Muller assène bien des évidences, certes. Mais des évidences qui font du bien, tant la démultiplication des chiffres dans le monde dans lequel nous vivons semble nous avoir fait perdre de vue toute raison.

Il souligne que trop souvent, on mesure le plus ce qui est le plus facile à mesurer, le plus simple. Mais c’est rarement le plus important. En mesurant le plus simple, on en oublie la complexité : ainsi quand on mesure les objectifs d’un employé, on oublie souvent que son travail est plus complexe que cela. On mesure plus facilement les sommes dépensées ou les ressources qu’on injecte dans un projet que les résultats des efforts accomplis. Les organisations mesurent plus ce qu’elles dépensent que ce qu’elles produisent. Bien souvent, la mesure, sous prétexte de standardisation, dégrade l’information, notamment pour rendre les choses comparables au détriment des ambiguïtés et de l’incertitude.

Quant aux manières de se jouer des métriques, elles sont là aussi nombreuses : simplifier les objectifs permet souvent de les atteindre au détriment des cas difficiles ; améliorer les chiffres se fait souvent en abaissant les standards… sans parler de la triche, on ne peut plus courante.

Les métriques au détriment du jugement, les chiffres au détriment de l’intangible

L’historien, bien sûr, tente de retracer rapidement l’origine de la mesure et tente d’expliquer pourquoi elle est devenue si populaire. C’est vraiment avec Frederick Taylor, cet ingénieur américain qui va inventer le management scientifique au début du 20e siècle, que la mesure va s’imposer. Le but même du taylorisme était de remplacer le savoir implicite des ouvriers avec des méthodes de production de masse, développées, planifiées, surveillées et contrôlées par les managers. Le Taylorisme va s’imposer en promouvant l’efficacité par la standardisation et la mesure, d’abord dans l’industrie avant de coloniser avec le siècle, tous les autres secteurs productifs. Le Taylorisme a été développé par les ingénieurs, mais aussi par les comptables. L’expertise nécessitait des méthodes quantitatives. Les décisions basées sur des chiffres étaient vues comme scientifiques, comme objectives et précises. La performance de toute organisation pouvait alors être optimisée en utilisant les mêmes outils et techniques de management. Ceux qui calculaient les coûts et les marges de profits s’alliaient avec ceux qui retiraient l’expérience des travailleurs pour les fondre dans des machines qui décomposaient les tâches pour mieux mesurer chacune et pour les rendre non spécialisée, permettant de remplacer n’importe quel travailleur par un autre. Le calcul s’est immiscé partout. Le biais matérialiste également : il était partout plus facile de mesurer les apports et rendements tangibles que les facteurs humains intangibles – comme la stratégie, la cohésion, la morale… La confiance et la dépendance dans les chiffres ont minimisé et réduit le besoin de connaître les institutions de l’intérieur. « Ce qui pouvait être mesuré a éclipsé ce qui était important ». Et la culture du management a exigé toujours plus de données… mais en parvenant à mesurer certains critères plutôt que d’autres, à favoriser donc certaines valeurs au détriment d’autres.

Muller explique encore que si les métriques sont devenues si populaires c’est parce qu’elles permettaient de se passer du jugement individuel. Elle permettait de remplacer ceux qui avaient la connaissance pour juger, par n’importe qui sachant lire les chiffres. L’objectivité des chiffres semblait supérieure au jugement subjectif et ce d’autant que les chiffres et les courbes étaient compréhensibles par tous. Les métriques se sont imposées dans les secteurs où la confiance était faible. Les décisions humaines sont devenues trop dangereuses à mesure qu’elles impliquaient une trop grande complexité de facteurs : d’où la prolifération des métriques, des process, des règles… La demande d’un flux constant de rapports, de données, de chiffres… a finalement diminué l’autonomie de ceux qui étaient les plus bas dans les organisations. La feuille de calcul est devenue l’outil phare du calcul, une façon de voir la réalité par les chiffres. La feuille de calcul qu’analysait Paul Dourish a créé une illusion d’analyse en profondeur. Alors que les données sont toujours plus faciles à collecter et à traiter, le chiffre et son traitement sont devenus la réponse à toute question posée par les organisations.

Dans les organisations, la mesure a remplacé la confiance. « Les nombres sont vus comme une garantie d’objectivité, un moyen de remplacer la connaissance intime et la confiance ». Les indicateurs de performance sont devenus des stratégies. Muller rappelle que la connaissance pratique est le produit de l’expérience… Si elle peut-être apprise par la pratique, elle ne se résume pas en formule générale. Alors que la connaissance abstraite, chiffrée, n’est qu’une question de technique, qui peut être systématisée, communiquée et appliquée.

Dans son livre, Muller évoque nombre de secteurs où les chiffres n’ont pas produit ce qu’on attendait d’eux. Dans le domaine scolaire, en médecine, dans le domaine militaire, dans la police et bien sûr dans les affaires… les chiffres sont souvent mal utilisés et ne parviennent pas à mesurer l’important. Bien souvent, les chiffres déplacent les objectifs, favorisent le court-termisme, découragent la prise de risque, l’innovation, la coopération… coûtent du temps (« Bien souvent, la métrique du succès est le nombre et la taille des rapports générés, comme si rien n’était accompli jusqu’à ce qu’il soit extensivement documenté »), voire sont dommageable pour la productivité elle-même (« Une question qui devrait être posée est de savoir dans quelle mesure la culture des métriques a elle-même contribué à la stagnation économique ? »)…

Interroger la légitimité des chiffres et assumer ses jugements !

Pour conclure son livre, Jerry Muller propose une checklist pour évaluer la légitimité de ce que vous cherchez à mesurer. Malgré ses critiques, nourries, il ne rejette pas tout chiffre, mais souligne qu’on devrait plus souvent penser à s’en passer.

Pour lui, il faut d’abord se poser la question de ce que l’on cherche à mesurer en se souvenant que plus un objet mesuré est influencé par la procédure de mesure, moins il est fiable. Et que ce constat empire quand la mesure repose sur l’activité humaine, plus capable de réagir au fait d’être mesurée, et pire encore quand des systèmes de récompenses ou de punition sont introduits…

L’information est-elle utile ? Le fait que quelque chose soit mesurable ne signifie pas qu’il faille le faire (au contraire, bien souvent la facilité à mesurer est inversement proportionnelle à sa signification !). « Posez-vous la question de ce que vous voulez vraiment savoir ! », conseille l’historien.

Est-ce que plus d’information est utile ? Si la mesure est utile, cela ne signifie pas pour autant que plus de mesure est plus utile.

D’autres indicateurs sont-ils disponibles ?

À qui profite la mesure ? Pour qui l’information sera-t-elle transparente ? – Et donc, pour qui ne le sera-t-elle pas ?

Quels sont les coûts pour acquérir ces métriques ?

Qui demande des chiffres et pourquoi ?

Comment et par qui ces mesures sont-elles faites (notamment pour souligner que bien souvent les métriques des uns ne devraient pas être celles des autres) ?

Comment corrompre vos chiffres ou faire diversion sur les objectifs ?

Souvenez-vous enfin que reconnaître ses limites est le début de la sagesse. Tout ne peut pas être amélioré par des chiffres. Et rendre un problème plus transparent par des chiffres peut rendre le problème plus saillant sans le rendre plus soluble.

Les métriques ne sont pas là pour remplacer le jugement, rappelle Muller, mais plutôt pour l’informer. Et pour cela, cela nécessite aussi de savoir quel poids donner aux mesures, savoir reconnaître ce qu’elles déforment, apprécier aussi ce qui n’est pas mesurable.

Oui, Jerry Muller semble égrainer des évidences. Mais c’est pour mieux souligner combien les chiffres participent à nous les faire perdre de vue. Souvenons-nous de ce que disait Dan Ariely : la précision, l’exactitude, l’immédiateté, la granularité ou la transparence ne sont pas toujours les meilleures façons de présenter les choses. La précision des chiffres ne rend pas les données plus utiles. Parfois produire des données moins fines, des indicateurs sans chiffres… sont des options qui peuvent aisément remplacer des données qui calculent mal ce qu’elles sont censées calculer… Trop souvent, les chiffres servent à faire passer des jugements dans les biais qui les masquent. La précision des chiffres, bien souvent, comme le rappelle le journaliste spécialiste des données Nicolas Kayser-Bril sur son blog, sert à nous faire croire en leur fiabilité, alors qu’ils sont comme tout savoirs, incertains !

À l’heure où le monde semble si facilement mesurable, souvenons-nous que ces mesures ne produisent pas toujours du sens, au contraire. Comme disait Pablo Jensen, le modèle du social que les chiffres induisent présupposent une forme de social qui n’a rien de la neutralité sous laquelle elle se présente.

Le monde numérique, qui produit des chiffres avec tant de facilité, peine bien souvent à prendre un peu de recul sur la validité des métriques qu’il démultiplie, oubliant de trouver le bon indicateur, qui n’est que rarement celui qui est produit. Sans compter que les indicateurs des uns ont tendance à devenir les indicateurs des autres, alors que trop souvent les métriques devraient être différentes et différenciées, afin que les indicateurs des uns ne soient pas nécessairement les indicateurs des autres.

La facilité à produire une tyrannie ne doit pas nous faire oublier ce que nous produisons. Si nous avons les moyens de la produire, il nous faut nous interroger sur comment y résister et comment réduire, atténuer voire contester cette production. Si nous sommes capables d’imposer une tyrannie, il faut nous interroger sur comment la défaire.

Source : Hubert Guillaud,  http://internetactu.blog.lemonde.fr/2018/09/29/de-la-tyrannie-des-chiffres/

Teacher characteristics and their effects on student test scores: A best-evidence review

Ci-dessous, un article de revue qui s'intéresse entre la relation entre la réussite des élèves en fonctions du profil des enseignants :

Teacher characteristics and their effects on student test scores: A best-evidence review

by : Johan Coenen, Wim Groot, Henriette Maassen van den Brink and  Chris van Klaveren


Coenen, J., Groot, W., van den Brink, H. M., & Van Klaveren, C. Teacher characteristics and their effects on student test scores: A best-evidence review.

 

ASCII MATH Syntax

Source : http://asciimath.org/

Syntax

Most AsciiMath symbols attempt to mimic in text what they look like rendered, like oo for . Many symbols can also be displayed using a TeX alternative, but a preceeding backslash is not required.

Operation symbols
Type TeX alt See
+ ++
- -
* cdot
** ast
*** star
// //
\\ backslash
setminus
\\
xx times ××
-: div ÷÷
|>< ltimes
><| rtimes
|><| bowtie
@ circ
o+ oplus
ox otimes
o. odot
sum
prod
^^ wedge
^^^ bidwedge
vv vee
vvv bigvee
nn cap
nnn bigcap
uu cup
uuu bigcup

 

Miscellaneous symbols
Type TeX alt See
2/3 frac{2}{3} 2323
2^3 2323
sqrt x xx
root(3)(x) 3xx3
int
oint
del partial
grad nabla
+- pm ±±
O/ emptyset
oo infty
aleph
:. therefore
:' because
|...| |ldots| |...||...|
|cdots| |||⋯|
vdots
ddots
|\ | | || |
|quad| |  ||  |
/_ angle
frown
/_\ triangle
diamond
square
|__ lfloor
__| rfloor
|~ lceiling
~| rceiling
CC C
NN N
QQ Q
RR R
ZZ Z
"hi" text(hi) hihi

 

Relation symbols
Type TeX alt See
= ==
!= ne
< lt <<
> gt >>
<= le
>= ge
-< prec
-<= preceq
>- succ
>-= succeq
in
!in notin
sub subset
sup supset
sube subseteq
supe supseteq
-= equiv
~= cong
~~ approx
prop propto
Logical symbols
Type TeX alt See
and andand
or oror
not neg ¬¬
=> implies
if ifif
<=> iff
AA forall
EE exists
_|_ bot
TT top
|-- vdash
|== models

 

Grouping brackets
Type TeX alt See
( ((
) ))
[ [[
] ]]
{ {{
} }}
(: langle
🙂 rangle
<<
>>
{: x ) x)x)
( x :} (x(x
abs(x) |x||x|
floor(x) x⌊x⌋
ceil(x) x⌈x⌉
norm(vecx) x∥x→∥
Arrows
Type TeX alt See
uarr uparrow
darr downarrow
rarr rightarrow
-> to
>-> rightarrowtail
->> twoheadrightarrow
>->> twoheadrightarrowtail
|-> mapsto
larr leftarrow
harr leftrightarrow
rArr Rightarrow
lArr Leftarrow
hArr Leftrightarrow

 

Accents
Type TeX alt See
hat x ˆxx^
bar x overline x ¯x
ul x underline x x
vec x xx→
dot x .xx.
ddot x ..xx..
overset(x)(=) overset(x)(=) x==x
underset(x)(=) =x=x
ubrace(1+2) underbrace(1+2) 1+21+2⏟
obrace(1+2) overbrace(1+2) 1+21+2⏞
color(red)(x) xx
cancel(x) xx
Greek Letters
Type See Type See
alpha αα
beta ββ
gamma γγ Gamma ΓΓ
delta δδ Delta ΔΔ
epsilon εε
varepsilon ɛɛ
zeta ζζ
eta ηη
theta θθ Theta ΘΘ
vartheta ϑϑ
iota ιι
kappa κκ
lambda λλ Lambda ΛΛ
mu μμ
nu νν
xi ξξ Xi ΞΞ
pi ππ Pi ΠΠ
rho ρρ
sigma σσ Sigma ΣΣ
tau ττ
upsilon υυ
phi ϕϕ Phi ΦΦ
varphi φφ
chi χχ
psi ψψ Psi ΨΨ
omega ωω Omega ΩΩ

 

Font commands
Type See
bb "AaBbCc" AaBbCcAaBbCc
bbb "AaBbCc" AaBbCcAaBbCc
cc "AaBbCc" AaBbCcAaBbCc
tt "AaBbCc" AaBbCcAaBbCc
fr "AaBbCc" AaBbCcAaBbCc
sf "AaBbCc" AaBbCcAaBbCc

 

Standard Functions

sin, cos, tan, sec, csc, cot, arcsin, arccos, arctan, sinh, cosh, tanh, sech, csch, coth, exp, log, ln, det, dim, mod, gcd, lcm, lub, glb, min, max, f, g.

 

Special Cases

Matrices: [[a,b],[c,d]] yields to [abcd][abcd]

Column vectors: ((a),(b)) yields to (ab)(ab)

Matrices can be used for layout: {(2x,+,17y,=,23),(x,-,y,=,5):} yields{2x+17y=23xy=5{2x+17y=23x-y=5

Complex subscripts: lim_(N->oo) sum_(i=0)^N yields to limNNi=0limN→∞∑i=0N

Subscripts must come before superscripts: int_0^1 f(x)dx yields to 10f(x)dx∫01f(x)dx

Derivatives: f'(x) = dy/dx yields f'(x)=dydxf′(x)=dydx
For variables other than x,y,z, or t you will need grouping symbols: (dq)/(dp) for dqdpdqdp

Overbraces and underbraces: ubrace(1+2+3+4)_("4 terms") yields 1+2+3+44 terms1+2+3+4⏟4 terms.
obrace(1+2+3+4)^("4 terms") yields 4 terms1+2+3+41+2+3+4⏞4 terms.

Attention: Always try to surround the > and < characters with spaces so that the html parser does not confuse it with an opening or closing tag!

 

The Grammar

Here is a definition of the grammar used to parse AsciiMath expressions. In the Backus-Naur form given below, the letter on the left of the ::= represents a category of symbols that could be one of the possible sequences of symbols listed on the right. The vertical bar | separates the alternatives.

v ::= [A-Za-z] | greek letters | numbers | other constant symbols
u ::= sqrt | text | bb | other unary symbols for font commands
b ::= frac | root | stackrel | other binary symbols
l ::= ( | [ | { | (: | {: | other left brackets
r ::= ) | ] | } | 🙂 | :} | other right brackets
S ::= v | lEr | uS | bSS             Simple expression
I ::= S_S | S^S | S_S^S | S          Intermediate expression
E ::= IE | I/I                       Expression

Mann -Whitney - Wilcoxon  TEST - EXAMPLES

Tests with Matched Samples


Mann Whitney U Test (Wilcoxon Rank Sum Test)


The modules on hypothesis testing presented techniques for testing the equality of means in two independent samples. An underlying assumption for appropriate use of the tests described was that the continuous outcome was approximately normally distributed or that the samples were sufficiently large (usually n1> 30 and n2> 30) to justify their use based on the Central Limit Theorem. When comparing two independent samples when the outcome is not normally distributed and the samples are small, a nonparametric test is appropriate.

A popular nonparametric test to compare outcomes between two independent groups is the Mann Whitney U test. The Mann Whitney U test, sometimes called the Mann Whitney Wilcoxon Test or the Wilcoxon Rank Sum Test, is used to test whether two samples are likely to derive from the same population (i.e., that the two populations have the same shape). Some investigators interpret this test as comparing the medians between the two populations. Recall that the parametric test compares the means (H0: μ12) between independent groups.

In contrast, the null and two-sided research hypotheses for the nonparametric test are stated as follows:

H0: The two populations are equal versus

H1: The two populations are not equal.

This test is often performed as a two-sided test and, thus, the research hypothesis indicates that the populations are not equal as opposed to specifying directionality. A one-sided research hypothesis is used if interest lies in detecting a positive or negative shift in one population as compared to the other. The procedure for the test involves pooling the observations from the two samples into one combined sample, keeping track of which sample each observation comes from, and then ranking lowest to highest from 1 to n1+n2, respectively.

Example:

Consider a Phase II clinical trial designed to investigate the effectiveness of a new drug to reduce symptoms of asthma in children. A total of n=10 participants are randomized to receive either the new drug or a placebo. Participants are asked to record the number of episodes of shortness of breath over a 1 week period following receipt of the assigned treatment. The data are shown below.

Placebo 7 5 6 4 12
New Drug 3 6 4 2 1

Is there a difference in the number of episodes of shortness of breath over a 1 week period in participants receiving the new drug as compared to those receiving the placebo? By inspection, it appears that participants receiving the placebo have more episodes of shortness of breath, but is this statistically significant?

In this example, the outcome is a count and in this sample the data do not follow a normal distribution.

Frequency Histogram of Number of Episodes of Shortness of Breath

Frequency histogram of episodes of shortness of breath

In addition, the sample size is small (n1=n2=5), so a nonparametric test is appropriate. The hypothesis is given below, and we run the test at the 5% level of significance (i.e., α=0.05).

H0: The two populations are equal versus

H1: The two populations are not equal.

Note that if the null hypothesis is true (i.e., the two populations are equal), we expect to see similar numbers of episodes of shortness of breath in each of the two treatment groups, and we would expect to see some participants reporting few episodes and some reporting more episodes in each group. This does not appear to be the case with the observed data. A test of hypothesis is needed to determine whether the observed data is evidence of a statistically significant difference in populations.

The first step is to assign ranks and to do so we order the data from smallest to largest. This is done on the combined or total sample (i.e., pooling the data from the two treatment groups (n=10)), and assigning ranks from 1 to 10, as follows. We also need to keep track of the group assignments in the total sample.

  Total Sample

(Ordered Smallest to Largest)

Ranks
Placebo New Drug Placebo New Drug Placebo New Drug
7 3 1 1
5 6 2 2
6 4 3 3
4 2 4 4 4.5 4.5
12 1 5 6
6 6 7.5 7.5
7 9
12 10

Note that the lower ranks (e.g., 1, 2 and 3) are assigned to responses in the new drug group while the higher ranks (e.g., 9, 10) are assigned to responses in the placebo group. Again, the goal of the test is to determine whether the observed data support a difference in the populations of responses. Recall that in parametric tests (discussed in the modules on hypothesis testing), when comparing means between two groups, we analyzed the difference in the sample means relative to their variability and summarized the sample information in a test statistic. A similar approach is employed here. Specifically, we produce a test statistic based on the ranks.

First, we sum the ranks in each group. In the placebo group, the sum of the ranks is 37; in the new drug group, the sum of the ranks is 18. Recall that the sum of the ranks will always equal n(n+1)/2. As a check on our assignment of ranks, we have n(n+1)/2 = 10(11)/2=55 which is equal to 37+18 = 55.

For the test, we call the placebo group 1 and the new drug group 2 (assignment of groups 1 and 2 is arbitrary). We let R1 denote the sum of the ranks in group 1 (i.e., R1=37), and R2denote the sum of the ranks in group 2 (i.e., R2=18). If the null hypothesis is true (i.e., if the two populations are equal), we expect R1 and R2 to be similar. In this example, the lower values (lower ranks) are clustered in the new drug group (group 2), while the higher values (higher ranks) are clustered in the placebo group (group 1). This is suggestive, but is the observed difference in the sums of the ranks simply due to chance? To answer this we will compute a test statistic to summarize the sample information and look up the corresponding value in a probability distribution.

Test Statistic for the Mann Whitney U Test

The test statistic for the Mann Whitney U Test is denoted U and is the smaller of U1 and U2, defined below.

where R1 = sum of the ranks for group 1 and R2 = sum of the ranks for group 2.

For this example,

In our example, U=3. Is this evidence in support of the null or research hypothesis? Before we address this question, we consider the range of the test statistic U in two different situations.

Situation #1

Consider the situation where there is complete separation of the groups, supporting the research hypothesis that the two populations are not equal. If all of the higher numbers of episodes of shortness of breath (and thus all of the higher ranks) are in the placebo group, and all of the lower numbers of episodes (and ranks) are in the new drug group and that there are no ties, then:

and

Therefore, when there is clearly a difference in the populations, U=0.

Situation #2

Consider a second situation where low and high scores are approximately evenly distributed in the two groups, supporting the null hypothesis that the groups are equal. If ranks of 2, 4, 6, 8 and 10 are assigned to the numbers of episodes of shortness of breath reported in the placebo group and ranks of 1, 3, 5, 7 and 9 are assigned to the numbers of episodes of shortness of breath reported in the new drug group, then:

 R1= 2+4+6+8+10 = 30 and R2= 1+3+5+7+9 = 25,

and

When there is clearly no difference between populations, then U=10.

Thus, smaller values of U support the research hypothesis, and larger values of U support the null hypothesis.

Image of an old key signifying a key concept

Key Concept:

For any Mann-Whitney U test, the theoretical range of U is from 0 (complete separation between groups, H0 most likely false and H1 most likely true) to n1*n2 (little evidence in support of H1).

 

In every test, U1+U2   is always equal to n1*n2. In the example above, U can range from 0 to 25 and smaller values of U support the research hypothesis (i.e., we reject H0if U is small). The procedure for determining exactly when to reject H0 is described below.

In every test, we must determine whether the observed U supports the null or research hypothesis. This is done following the same approach used in parametric testing. Specifically, we determine a critical value of U such that if the observed value of U is less than or equal to the critical value, we reject H0 in favor of H1 and if the observed value of U exceeds the critical value we do not reject H0.

The critical value of U can be found in the table below. To determine the appropriate critical value we need sample sizes (for Example: n1=n2=5) and our two-sided level of significance (α=0.05). For Example 1 the critical value is 2, and the decision rule is to reject H0 if U < 2. We do not reject H0 because 3 > 2. We do not have statistically significant evidence at α =0.05, to show that the two populations of numbers of episodes of shortness of breath are not equal. However, in this example, the failure to reach statistical significance may be due to low power. The sample data suggest a difference, but the sample sizes are too small to conclude that there is a statistically significant difference.

Table of Critical Values for U

 

Example:

A new approach to prenatal care is proposed for pregnant women living in a rural community. The new program involves in-home visits during the course of pregnancy in addition to the usual or regularly scheduled visits. A pilot randomized trial with 15 pregnant women is designed to evaluate whether women who participate in the program deliver healthier babies than women receiving usual care. The outcome is the APGAR score measured 5 minutes after birth. Recall that APGAR scores range from 0 to 10 with scores of 7 or higher considered normal (healthy), 4-6 low and 0-3 critically low. The data are shown below.

Usual Care 8 7 6 2 5 8 7 3
New Program 9 9 7 8 10 9 6

Is there statistical evidence of a difference in APGAR scores in women receiving the new and enhanced versus usual prenatal care? We run the test using the five-step approach.

  •  Step 1. Set up hypotheses and determine level of significance.

H0: The two populations are equal versus

H1: The two populations are not equal.  α =0.05

  • Step 2.  Select the appropriate test statistic.

Because APGAR scores are not normally distributed and the samples are small (n1=8 and n2=7), we use the Mann Whitney U test. The test statistic is U, the smaller of

where R1 and R2 are the sums of the ranks in groups 1 and 2, respectively.

  • Step 3. Set up decision rule.

The appropriate critical value can be found in the table above. To determine the appropriate critical value we need sample sizes (n1=8 and n2=7) and our two-sided level of significance (α=0.05). The critical value for this test with n1=8, n2=7 and α =0.05 is 10 and the decision rule is as follows: Reject H0 if U < 10.

  • Step 4. Compute the test statistic.

The first step is to assign ranks of 1 through 15 to the smallest through largest values in the total sample, as follows:

Total Sample

(Ordered Smallest to Largest)

Ranks
Usual Care New Program Usual Care New Program Usual Care New Program
8 9 2 1
7 8 3 2
6 7 5 3
2 8 6 6 4.5 4.5
5 10 7 7 7 7
8 9 7 7
7 6 8 8 10.5 10.5
3 8 8 10.5 10.5
9 13.5
9 13.5
10 15
R1=45.5 R2=74.5

Next, we sum the ranks in each group. In the usual care group, the sum of the ranks is R1=45.5 and in the new program group, the sum of the ranks is R2=74.5. Recall that the sum of the ranks will always equal n(n+1)/2.   As a check on our assignment of ranks, we have n(n+1)/2 = 15(16)/2=120 which is equal to 45.5+74.5 = 120.

We now compute U1 and U2, as follows:

Thus, the test statistic is U=9.5.

  • Step 5.  Conclusion:

We reject H0 because 9.5 < 10. We have statistically significant evidence at α =0.05 to show that the populations of APGAR scores are not equal in women receiving usual prenatal care as compared to the new program of prenatal care.

 

Example:

A clinical trial is run to assess the effectiveness of a new anti-retroviral therapy for patients with HIV. Patients are randomized to receive a standard anti-retroviral therapy (usual care) or the new anti-retroviral therapy and are monitored for 3 months. The primary outcome is viral load which represents the number of HIV copies per milliliter of blood. A total of 30 participants are randomized and the data are shown below.

Standard Therapy 7500 8000 2000 550 1250 1000 2250 6800 3400 6300 9100 970 1040 670 400
New Therapy 400 250 800 1400 8000 7400 1020 6000 920 1420 2700 4200 5200 4100 undetectable

Is there statistical evidence of a difference in viral load in patients receiving the standard versus the new anti-retroviral therapy?

  • Step 1. Set up hypotheses and determine level of significance.

H0: The two populations are equal versus

H1: The two populations are not equal. α=0.05

  • Step 2. Select the appropriate test statistic.

Because viral load measures are not normally distributed (with outliers as well as limits of detection (e.g., "undetectable")), we use the Mann-Whitney U test. The test statistic is U, the smaller of

where R1 and R2 are the sums of the ranks in groups 1 and 2, respectively.

  • Step 3. Set up the decision rule.

The critical value can be found in the table of critical values based on sample sizes (n1=n2=15) and a two-sided level of significance (α=0.05). The critical value 64 and the decision rule is as follows: Reject H0 if U < 64.

  • Step 4. Compute the test statistic.

The first step is to assign ranks of 1 through 30 to the smallest through largest values in the total sample. Note in the table below, that the "undetectable" measurement is listed first in the ordered values (smallest) and assigned a rank of 1.

Total Sample (Ordered Smallest to Largest) Ranks
Standard

Anti-retroviral

New

Anti-retroviral

Standard

Anti-retroviral

New

Anti-retroviral

Standard

Anti-retroviral

New

Anti-retroviral

7500 400 undetectable 1
8000 250 250 2
2000 800 400 400 3.5 3.5
550 1400 550 5
1250 8000 670 6
1000 7400 800 7
2250 1020 920 8
6800 6000 970 9
3400 920 1000 10
6300 1420 1020 11
9100 2700 1040 12
970 4200 1250 13
1040 5200 1400 14
670 4100 1420 15
400 undetectable 2000 16
2250 17
2700 18
3400 19
4100 20
4200 21
5200 22
6000 23
6300 24
6800 25
7400 26
7500 27
8000 8000 28.5 28.5
9100 30
R1 = 245 R2 = 220

Next, we sum the ranks in each group. In the standard anti-retroviral therapy group, the sum of the ranks is R1=245; in the new anti-retroviral therapy group, the sum of the ranks is R2=220. Recall that the sum of the ranks will always equal n(n+1)/2. As a check on our assignment of ranks, we have n(n+1)/2 = 30(31)/2=465 which is equal to 245+220 = 465.  We now compute U1 and U2, as follows,

Thus, the test statistic is U=100.

  • Step 5.  Conclusion.

We do not reject H0 because 100 > 64. We do not have sufficient evidence to conclude that the treatment groups differ in viral load.

APPARIED

This section describes nonparametric tests to compare two groups with respect to a continuous outcome when the data are collected on matched or paired samples. The parametric procedure for doing this was presented in the modules on hypothesis testing for the situation in which the continuous outcome was normally distributed. This section describes procedures that should be used when the outcome cannot be assumed to follow a normal distribution. There are two popular nonparametric tests to compare outcomes between two matched or paired groups. The first is called the Sign Test and the second the Wilcoxon Signed Rank Test.

Recall that when data are matched or paired, we compute difference scores for each individual and analyze difference scores. The same approach is followed in nonparametric tests. In parametric tests, the null hypothesis is that the mean difference (μd) is zero. In nonparametric tests, the null hypothesis is that the median difference is zero.

Example:

Consider a clinical investigation to assess the effectiveness of a new drug designed to reduce repetitive behaviors in children affected with autism. If the drug is effective, children will exhibit fewer repetitive behaviors on treatment as compared to when they are untreated. A total of 8 children with autism enroll in the study. Each child is observed by the study psychologist for a period of 3 hours both before treatment and then again after taking the new drug for 1 week. The time that each child is engaged in repetitive behavior during each 3 hour observation period is measured. Repetitive behavior is scored on a scale of 0 to 100 and scores represent the percent of the observation time in which the child is engaged in repetitive behavior. For example, a score of 0 indicates that during the entire observation period the child did not engage in repetitive behavior while a score of 100 indicates that the child was constantly engaged in repetitive behavior. The data are shown below.

Child Before Treatment After 1 Week of Treatment
1 85 75
2 70 50
3 40 50
4 65 40
5 80 20
6 75 65
7 55 40
8 20 25

Looking at the data, it appears that some children improve (e.g., Child 5 scored 80 before treatment and 20 after treatment), but some got worse (e.g., Child 3 scored 40 before treatment and 50 after treatment). Is there statistically significant improvement in repetitive behavior after 1 week of treatment?.

Because the before and after treatment measures are paired, we compute difference scores for each child. In this example, we subtract the assessment of repetitive behaviors after treatment from that measured before treatment so that difference scores represent improvement in repetitive behavior. The question of interest is whether there is significant improvement after treatment.

Child Before

Treatment

After 1 Week

of Treatment

Difference

(Before-After)

1 85 75 10
2 70 50 20
3 40 50 -10
4 65 40 25
5 80 20 60
6 75 65 10
7 55 40 15
8 20 25 -5

 

In this small sample, the observed difference (or improvement) scores vary widely and are subject to extremes (e.g., the observed difference of 60 is an outlier). Thus, a nonparametric test is appropriate to test whether there is significant improvement in repetitive behavior before versus after treatment. The hypotheses are given below.

H0: The median difference is zero  versus

H1: The median difference is positive α=0.05

In this example, the null hypothesis is that there is no difference in scores before versus after treatment. If the null hypothesis is true, we expect to see some positive differences (improvement) and some negative differences (worsening). If the research hypothesis is true, we expect to see more positive differences after treatment as compared to before.

The Sign Test


The Sign Test is the simplest nonparametric test for matched or paired data. The approach is to analyze only the signs of the difference scores, as shown below:

Child Before

Treatment

After 1 Week

of Treatment

Difference

(Before-After)

Sign
1 85 75 10 +
2 70 50 20 +
3 40 50 -10 -
4 65 40 25 +
5 80 20 60 +
6 75 65 10 +
7 55 40 15 +
8 20 25 -5 -

If the null hypothesis is true (i.e., if the median difference is zero) then we expect to see approximately half of the differences as positive and half of the differences as negative. If the research hypothesis is true, we expect to see more positive differences.

Test Statistic for the Sign Test

The test statistic for the Sign Test is the number of positive signs or number of negative signs, whichever is smaller. In this example, we observe 2 negative and 6 positive signs. Is this evidence of significant improvement or simply due to chance?

Determining whether the observed test statistic supports the null or research hypothesis is done following the same approach used in parametric testing. Specifically, we determine a critical value such that if the smaller of the number of positive or negative signs is less than or equal to that critical value, then we reject H0 in favor of H1 and if the smaller of the number of positive or negative signs is greater than the critical value, then we do not reject H0. Notice that this is a one-sided decision rule corresponding to our one-sided research hypothesis (the two-sided situation is discussed in the next example).

Table of Critical Values for the Sign Test

The critical values for the Sign Test are in the table below.

 

To determine the appropriate critical value we need the sample size, which is equal to the number of matched pairs (n=8) and our one-sided level of significance α=0.05. For this example, the critical value is 1, and the decision rule is to reject H0 if the smaller of the number of positive or negative signs < 1. We do not reject H0 because 2 > 1. We do not have sufficient evidence at α=0.05 to show that there is improvement in repetitive behavior after taking the drug as compared to before. In essence, we could use the critical value to decide whether to reject the null hypothesis. Another alternative would be to calculate the p-value, as described below.

Computing P-values for the Sign Test

With the Sign test we can readily compute a p-value based on our observed test statistic. The test statistic for the Sign Test is the smaller of the number of positive or negative signs and it follows a binomial distribution with n = the number of subjects in the study and p=0.5 (See the module on Probability for details on the binomial distribution). In the example above, n=8 and p=0.5 (the probability of success under H0).

By using the binomial distribution formula:

we can compute the probability of observing different numbers of successes during 8 trials. These are shown in the table below.

x=Number of Successes P(x successes)
0 0.0039
1 0.0313
2 0.1094
3 0.2188
4 0.2734
5 0.2188
6 0.1094
7 0.0313
8 0.0039

 

Recall that a p-value is the probability of observing a test statistic as or more extreme than that observed. We observed 2 negative signs. Thus, the p-value for the test is: p-value = P(x <2). Using the table above,

Because the p-value = 0.1446 exceeds the level of significance α=0.05, we do not have statistically significant evidence that there is improvement in repetitive behaviors after taking the drug as compared to before.  Notice in the table of binomial probabilities above, that we would have had to observe at most 1 negative sign to declare statistical significance using a 5% level of significance. Recall the critical value for our test was 1 based on the table of critical values for the Sign Test (above).

One-Sided versus Two-Sided Test

In the example looking for differences in repetitive behaviors in autistic children, we used a one-sided test (i.e., we hypothesize improvement after taking the drug). A two sided test can be used if we hypothesize a difference in repetitive behavior after taking the drug as compared to before. From the table of critical values for the Sign Test, we can determine a two-sided critical value and again reject H0 if the smaller of the number of positive or negative signs is less than or equal to that two-sided critical value. Alternatively, we can compute a two-sided p-value. With a two-sided test, the p-value is the probability of observing many or few positive or negative signs. If the research hypothesis is a two sided alternative (i.e., H1: The median difference is not zero), then the p-value is computed as: p-value = 2*P(x < 2). Notice that this is equivalent to p-value = P(x < 2) + P(x > 6), representing the situation of few or many successes. Recall in two-sided tests, we reject the null hypothesis if the test statistic is extreme in either direction. Thus, in the Sign Test, a two-sided p-value is the probability of observing few or many positive or negative signs. Here we observe 2 negative signs (and thus 6 positive signs). The opposite situation would be 6 negative signs (and thus 2 positive signs as n=8). The two-sided p-value is the probability of observing a test statistic as or more extreme in either direction (i.e.,

When Difference Scores are Zero

There is a special circumstance that needs attention when implementing the Sign Test which arises when one or more participants have difference scores of zero (i.e., their paired measurements are identical). If there is just one difference score of zero, some investigators drop that observation and reduce the sample size by 1 (i.e., the sample size for the binomial distribution would be n-1). This is a reasonable approach if there is just one zero. However, if there are two or more zeros, an alternative approach is preferred.

  • If there is an even number of zeros, we randomly assign them positive or negative signs.
  • If there is an odd number of zeros, we randomly drop one and reduce the sample size by 1, and then randomly assign the remaining observations positive or negative signs. The following example illustrates the approach.

Example:

A new chemotherapy treatment is proposed for patients with breast cancer.   Investigators are concerned with patient's ability to tolerate the treatment and assess their quality of life both before and after receiving the new chemotherapy treatment.   Quality of life (QOL) is measured on an ordinal scale and for analysis purposes, numbers are assigned to each response category as follows: 1=Poor, 2= Fair, 3=Good, 4= Very Good, 5 = Excellent.   The data are shown below.

Patient QOL Before

Chemotherapy Treatment

QOL After

Chemotherapy Treatment

1 3 2
2 2 3
3 3 4
4 2 4
5 1 1
6 3 4
7 2 4
8 3 3
9 2 1
10 1 3
11 3 4
12 2 3

The question of interest is whether there is a difference in QOL after chemotherapy treatment as compared to before.

  • Step 1. Set up hypotheses and determine level of significance.

H0: The median difference is zero versus

H1: The median difference is not zero α=0.05

  • Step 2. Select the appropriate test statistic.

The test statistic for the Sign Test is the smaller of the number of positive or negative signs.

  • Step 3. Set up the decision rule.

The appropriate critical value for the Sign Test can be found in the table of critical values for the Sign Test. To determine the appropriate critical value we need the sample size (or number of matched pairs, n=12), and our two-sided level of significance α=0.05.

The critical value for this two-sided test with n=12 and a =0.05 is 2, and the decision rule is as follows: Reject H0 if the smaller of the number of positive or negative signs < 2.

  • Step 4. Compute the test statistic.

Because the before and after treatment measures are paired, we compute difference scores for each patient. In this example, we subtract the QOL measured before treatment from that measured after.

Patient QOL Before Chemotherapy Treatment QOL After

Chemotherapy Treatment

Difference

(After-Before)

1 3 2 -1
2 2 3 1
3 3 4 1
4 2 4 2
5 1 1 0
6 3 4 1
7 2 4 2
8 3 3 0
9 2 1 -1
10 1 3 2
11 3 4 1
12 2 3 1

We now capture the signs of the difference scores and because there are two zeros, we randomly assign one negative sign (i.e., "-" to patient 5)   and one positive sign (i.e., "+" to patient 8), as follows:

Patient QOL Before Chemotherapy Treatment QOL After

Chemotherapy Treatment

Difference

(After-Before)

Sign
1 3 2 -1 -
2 2 3 1 +
3 3 4 1 +
4 2 4 2 +
5 1 1 0 -
6 3 4 1 +
7 2 4 2 +
8 3 3 0 +
9 2 1 -1 -
10 1 3 2 +
11 3 4 1 +
12 2 3 1 +

The test statistic is the number of negative signs which is equal to 3.

  • Step 5. Conclusion.

We do not reject H0 because 3 > 2. We do not have statistically significant evidence at α=0.05 to show that there is a difference in QOL after chemotherapy treatment as compared to before.

We can also compute the p-value directly using the binomial distribution with n = 12 and p=0.5.   The two-sided p-value for the test is p-value = 2*P(x < 3) (which is equivalent to p-value = P(x < 3) + P(x > 9)). Again, the two-sided p-value is the probability of observing few or many positive or negative signs. Here we observe 3 negative signs (and thus 9 positive signs). The opposite situation would be 9 negative signs (and thus 3 positive signs as n=12). The two-sided p-value is the probability of observing a test statistic as or more extreme in either direction (i.e., P(x < 3) + P(x > 9)). We can compute the p-value using the binomial formula or a statistical computing package, as follows:

Because the p-value = 0.1460 exceeds the level of significance (α=0.05) we do not have statistically significant evidence at α =0.05 to show that there is a difference in QOL after chemotherapy treatment as compared to before.

Picture of an old key signifying a Key Concept

Key Concept:

 

In each of the two previous examples, we failed to show statistical significance because the p-value was not less than the stated level of significance. While the test statistic for the Sign Test is easy to compute, it actually does not take much of the information in the sample data into account. All we measure is the difference in participant's scores, and do not account for the magnitude of those differences.

 

"D’après une étude" : cet imparable argument d’autorité...

« D’après une étude » : cet imparable argument d’autorité...

« Les couches-culottes sont toxiques pour les bébés, d’après une étude »… « D’après une étude, les gens qui se parlent à eux-mêmes seraient des génies »… « D’après une étude, le spoiler est bon pour vous »… Il ne se passe pas un jour sans que les médias (que je consulte) utilisent cette formule. Certains des articles sont très bien écrits et, rapportant ce qui a été fait dans l’étude, permettent réellement au lecteur de se faire une opinion argumentée. D’autres se contentent d’un gros titre et de quelques considérations générales, attrayantes, mais pas étayées. C’est là que le bât blesse.

Publis. European Southern Observatory/FlickrCC BY

En creusant un peu, on se rend vite compte que, pour chaque étude montrant un résultat « blanc », il y en a au moins une autre qui montre un résultat « noir ». Alors, pourquoi se fier plus à l’une qu’à l’autre ? Parce qu’elle a été relayée davantage par les (multi-)médias ? Parce qu’elle est attribuée à « une université prestigieuse » ou à un « grand professeur » ? Ou encore parce qu’elle a été qualifiée de « très sérieuse » ? Parce qu’elle a été mieux faite ? Ce dernier argument est peut-être celui qui tombe le mieux sous le sens. À condition de savoir décortiquer ces fameuses études. Voici un mode d’emploi et quelques recommandations d’usage.

Les dessous d’« une étude… »

Il existe plusieurs formats pour la publication des articles scientifiques, mais tous ont en commun une structure, concrète, efficace, souvent éloignée de la belle histoire que l’on peut en tirer a posteriori. « Une étude », c’est un titre, des auteurs, un résumé, une introduction, des méthodes, des résultats, une discussion, des remerciements, des références.

Description scientifique en 1904 d’une nouvelle espèce d’araignée, Pacificana cockayniH.R. Hogg/The Annals and Magazine of Natural History

D’abord un titre. C’est la première chose qu’on lit. Certains sont accrocheurs, mais ils peuvent manquer de nuances, et laisser entendre beaucoup plus qu’ils n’ont vraiment à dire. De plus, les retranscriptions ne sont pas toujours fidèles. Un matin (le 6 février 2017), j’ai tapé « d’après une étude » dans mon moteur de recherche, et sur la première page, j’ai cliqué sur le lien « D’après une étude, les femmes codent mieux que les hommes » qui m’a renvoyé vers le site du journal Le Parisien. De là, j’ai accédé à l’article original intitulé « Gender biais in open source : pull request acceptance of women versus men ». Il est bien question d’hommes et de femmes, mais ce que dit le titre de l’article initial, ce n’est pas que les femmes codent mieux que les hommes, juste qu’il y a une différence entre les deux sexes que les chercheurs souhaitent comparer. Aussi bien écrit que soit l’article en ligne du Parisien, on notera simplement que l’étiquette ne correspond pas complètement au produit.

Puis, des auteurs. Des humains donc. Des humains qui signent leur article et qui en assument donc la responsabilité intellectuelle. Les auteurs assurent, s’il y a lieu, le service après-vente de leur article. Une critique constructive ? Des compléments à apporter ? Des interrogations légitimes ? Les auteurs peuvent – et doivent – y répondre. Leur nom est toujours accompagné par leur affiliation, c’est-à-dire l’université ou l’institut de recherche qui les emploie.

Un article de Cell, revue réputée en biologie. Cell

Le nombre des auteurs signataires d’un article est très variable d’une étude à l’autre. Il existe un ensemble de règles définissant quelles sont les contributions de chacun qui justifient de signer. Elles sont plus ou moins suivies à la lettre, mais en général, sont considérées comme auteurs toutes les personnes qui ont élaboré l’étude, analysé et interprété les données, rédigé, apporté des critiques constructives ayant permis de renforcer la qualité de l’article. Les personnes qui ont acquis les données sont, selon les cas, considérées comme auteurs ou remerciés à la fin de l’article.

Plusieurs anonymes participent également à améliorer la valeur de l’article avant sa publication. Ce sont les reviewers, c’est-à-dire les deux ou trois spécialistes que l’éditeur contacte pour émettre un avis critique et constructif sur l’article que lui ont soumis les auteurs. Les échanges entre les auteurs, l’éditeur et les reviewers permettent de lever les ambiguïtés quant aux méthodes et aux interprétations et constituent une manière de valider la solidité des résultats et de leurs interprétations. Une sorte de contrôle qualité.

Le résumé n’est qu’un résumé

Le résumé (ou abstract) est aussi synthétique que possible. S’il est bien écrit, il informe sur ce qui a motivé l’étude, sur les grandes lignes de la méthodologie employée, il donne les principaux résultats et les principales conclusions que les auteurs en tirent, à la lumière de la question posée. Toutefois, le résumé n’est qu’un résumé. Souvent moins de 300 mots. C’est très court pour rendre compte de plusieurs mois, voire années, de travail. C’est surtout trop court pour apporter toutes les nuances nécessaires pour comprendre les résultats sans les sur-interpréter. Malgré les efforts déployés, le nombre d’articles en accès libre pour le lecteur reste encore très limité de sorte que le citoyen curieux n’a souvent accès qu’au résumé de l’article. Toutefois, on espère (qu’en est-il, vraiment ?) que ceux qui le retranscrivent pour grand public ont eu accès à sa version intégrale.

L’introduction… introduit l’article. Elle énonce le contexte de l’étude, pose les concepts et détaille les hypothèses de travail. C’est souvent la partie la plus accessible et la plus didactique de l’article. Tout simplement parce que ses auteurs veulent être bien compris par leurs lecteurs ! J’ai l’habitude de dire aux étudiants que j’encadre que si l’introduction est bien écrite, alors à la fin, le lecteur doit être en mesure de formuler lui même les hypothèses testées par les auteurs.

Ce qui fait la différence fondamentale entre un article scientifique et toute autre forme d’écrit scientifique à destination du grand public, c’est la partie matériels et méthodes. Si je lis sur mon paquet de dentifrice que 90 % des personnes interrogées sont satisfaites par le produit, alors je me demande 90 % de combien ? Est-ce que 9 personnes sur 10 interrogées ont été satisfaites, ou bien 900 sur 1000 ? Et puis satisfaites de quoi ? Sur quels critères a été évaluée la satisfaction ? Comment les utilisateurs ont-ils été interrogés (questionnaire numérique, papier, interview, téléphone…) ? Et comment ont il été choisis ? Au hasard ? Dans plusieurs régions ? Les a-t-on rémunérés ? Ont-ils reçu des offres promotionnelles en remerciement ? C’est à ce genre de questions, légitimes, que doit répondre la partie matériels et méthodes.

À elle seule, cette partie peut occuper plus du tiers de la longueur de l’article ! Voyez là comme la retranscription détaillée du protocole que les auteurs ont utilisé. Une sorte de recette de cuisine. Si cette partie est aussi détaillée, c’est pour permettre la reproductibilité de l’étude. De l’étude. Pas nécessairement du résultat.

Partant de là, on comprend bien que les résultats d’une étude ne valent rien en tant que tels s’ils ne sont pas présentés dans un contexte général et si l’on n’a qu’une idée floue de la manière dont ils ont été obtenus (comprenez : les 90 % de satisfaction de mon tube de dentifrice ne valent pas grand-chose). D’autant que la partie résultats des articles scientifique est d’une lecture que je qualifierai « d’aride ». Des chiffres. Des pourcentages. Des moyennes. Des intervalles de confiance. Des tableaux et des figures. Des faits, rien que des faits. Pas d’interprétation. Pas encore.

Première revue scientifique en France, 1665. Journal des scavans

Les interprétations ne viennent que dans la partie qualifiée de « discussion ». C’est là que les auteurs interprètent leurs résultats à la lumière des hypothèses qu’ils ont formulées. Quand je rédige la discussion de mes articles, je dois donner à mon lecteur tous les éléments qui lui permettent de replacer mes résultats dans un cadre plus large que celui de mon étude. Je lui montre en quoi l’article qu’il est en train de lire constitue une avancée dans la compréhension d’un problème. Aussi objectif que j’essaie d’être, et avec tous les garde-fous imaginables, il est permis qu’un lecteur, sur la base des résultats, ait des interprétations si ce n’est différentes, au moins nuancées. Et c’est tant mieux !

La discussion peut aller au-delà des seuls faits et proposer des interprétations et des implications plus générales, pour peu que je les argumente en confrontant mes résultats à ceux présentés dans d’autres articles. Cela implique de mentionner tout aussi bien les études qui vont dans le même sens que mes résultats que les études montrant l’exact opposé : « J’ai montré que X. Ce résultat est conforme à la théorie Y selon laquelle… et qui est confirmée par les travaux de Doe et coll. 1999, Durand et coll. 2003, Martin et coll. 2015. Cependant, mon résultat est contraire à l’idée proposée par Dupont et Dupond 2007 selon laquelle… ». Et de comparer les approches expérimentales des uns et des autres pour expliquer les points de convergence et de désaccord.

La discussion contextualise donc les résultats présentés. Implicitement, tous les auteurs de toutes les études – je crois – admettent la règle selon laquelle des résultats ne sont valables que dans le cadre théorique et méthodologique dans lequel ils ont été établis. Si des extrapolations sont possibles, elles doivent être faites avec beaucoup de prudence.

Entendons-nous bien : la spéculation est saine si elle est étayée. Elle stimule le débat. Toutefois, les perspectives et implications des études que présentent les auteurs à la fin de leurs articles (en général) ne doivent en aucun cas être confondues avec les conclusions qui, elles, se fondent sur des résultats.

Cela peut paraître anecdotique, mais il est toujours intéressant de jeter un œil aux quelques lignes de remerciements qui précèdent la liste des références. C’est notamment là que sont mentionnés les sources de financement qui ont permis de réaliser l’étude. La question n’est pas de chercher systématiquement à remettre en question le contenu d’une étude sur la seule base de sa source de financement, mais si conflit d’intérêt il y à, il devrait être indiqué dans ce paragraphe.

Exemple de déclaration d’intérêt. JAMA

De ce qui précède, on aura pu lire entre les lignes qu’en fin de compte, ce qui est nouveau dans « une étude », ce sont les résultats. Le reste de l’article emprunte à d’autres publications pour présenter le contexte, décrire des outils et des méthodes, étayer des arguments. Pour rendre à César ce qu’il lui appartient, et permettre à chacun de suivre ou de vérifier les arguments des auteurs, à chaque affirmation est associée une ou plusieurs références dont la liste est systématiquement fournie, dans le détail, à la fin de chaque article.

« Une étude », non, des études oui

La science n’est pas un catalogue de résultats publiés dans lequel chacun peut aller piocher les arguments qui abondent dans son sens ou contredisent les arguments du voisin : ce que les Anglo-saxons appellent joliment le cherry-picking. C’est un processus dynamique qui répond à un certain nombre de critères de qualité dont les plus importants sont la transparence et la reproductibilité.

La science, c’est avant tout une démarche, et une démarche exigeante. Toutes les études sont dignes d’intérêt, à condition d’être transparentes et que leur message s’appuie sur une méthodologie claire et des résultats interprétés dans la limite des conditions fixées par l’étude. Face à un contradicteur, clamer « si, c’est vrai, je l’ai lu dans une étude » n’est pas satisfaisant, parce que votre contradicteur pourra brandir une autre étude tout aussi valable. Il est normal que des études se contredisent. Si vous voulez jouer, prononcez les mots « OGM » et « bio » pendant un repas de famille, vous verrez ! C’est en confrontant des résultats opposés que l’on avance et que, petit à petit on arrive à mieux délimiter les contours d’une hypothèse, de ce qui est bien établi de ce qui fait débat.

Evitons les raccourcis

Sortir « une étude » de son contexte et la réduire à ses résultats en occultant la méthode qui a permis de l’obtenir relève au mieux de la négligence, au pire de la désinformation. Extrapoler les résultats de « une étude » en dehors du contexte dans lequel ils ont été établis relève de l’ignorance ou de la prise de position et ne devrait se faire qu’au conditionnel. Pas à l’indicatif. Et toujours en rappelant les éléments de méthodes supportant les résultats.

Qu’il n’y ait pas de méprise. Il est évident que le citoyen n’a pas à se plonger dans la lecture des études en elles-mêmes (pour peu qu’il y ait accès) et qu’il doit pouvoir faire confiance aux journalistes. Mais il est tout aussi important qu’il garde un esprit critique sur ce qu’il lit et qu’il n’oublie jamais deux choses primordiales :

  • La science est écrite par des humains, avec tous les défauts et leurs qualités.
  • Les « études » relayées par les médias et les réseaux sociaux ont fait l’objet de plusieurs digestions et régurgitations par d’autres humains. Plus il y a d’intermédiaires entre les auteurs de « une étude » et les lecteurs, moins la bouillie finale garde les saveurs du produit d’origine.

Ah, oui, et cet article aussi est rédigé par un humain, aussi (im)partial qu’un autre. Faites-en ce que vous voulez.

Source : March 12, 2017  Bastien Castagneyrol : http://theconversation.com/dapres-une-etude-cet-imparable-argument-dautorite-74413

Méthodologie du classement de Shangaij

Comment choisir les universités classées

Le classement académique concerne les université où un parmi tous les professeurs ou les étudiants anciens a pris le prix Nobel ou le médaille Fields; où un personnel a plublié dans Nature ou Science pendant les 10 ans derniers et où les dissertations répertoriées dans SCIE et SSCI sont relativement nombreuses. Parmi les 2000 universitées qui satisfont au moin une discipline, 1200 sont effectivement classées et 500 meilleures universités sont plubliées.

Le système des critères de classement

Les universités sont classée en matière de performance académique par 6 indices, à savoir le chiffre pondérédu nombre des anciens étudiants qui ont pris le prix Nobel et médailles Fields (alumni), le chiffre pondéré du nombre des professeurs qui ont pris le prix Nobel et médailles Fields (award), le nombre de chercheurs les plus cités dans leur discipline (HiCi), le chiffre pondéré du nombre de publications dans les revues scientifiques Nature et Science (N&S), le nombre de chercheurs répertoriés dans, le Science Citation Index-Expanded (SCIE) et le Social Science Citation Index (SSCI) (PUB), et le chiffre moyen des 5 indicateurs dernières. Le classement concerne effectivement chaque année plus de 1200 universités dont les premiers 500 sont publiées.

Lors du classement, en matière d’une des 6 indice y compris Alumni、Award、HiCi、N&S、PUB、PCP, la note la plus haute s’élève à 100. Les notes des autres universitées sont déternimées sous la forme de la proportion par rapport à la note la plus élevée. Si une distribution de données d'une indice montre une anomalie évidente, les méthodes statistiques classiques seront utilisées pour traiter les donnés. Les six notes d’une université sont pondérées afin que la note totale la plus élevée est de 100. Les notes des autres universités sont décidé en fonction de la proportion par rapport à la note la plues élevée.

Les indicateurs et le poids des indicateurs du classement académique des universitées mondiales

Indiateur de niveau 1 Indicateur de niveau 2 Code poids
Qualité éducaitàve le chiffre pondérédu nombre des anciens étudiants qui ont pris le prix Nobel et médailles Fields Alumni 10%
Qualite des professeurs le chiffre pondéré du nombre des professeurs qui ont pris le prix Nobel et médailles Fields Award 20%
le nombre de chercheurs les plus cités dans leur discipline HiCi 20%
Les résultats des recherches scientifiques e chiffre pondéré du nombre de publications dans les revues scientifiques Nature et Science N&S 20%
le nombre de dissertaitions répertoriés dans le Science Citation Index-Expanded (SCIE) et le Social Science Citation Index (SSCI) PUB 20%
La performance moyenne des professeurs le chiffre moyen des 5 indicateurs dernières PCP 10%
* Pour les universités purement littéraire, on ne prend pas en compte l’indicateur N&S. Son poids est partageé en fonction de proportion par les autres indicateurs.

La définition des indicateurs et la méthodologie des statistiques.

Alumni signifie le nombre de prix nobel et médailles Fields pris par les anciens étudiantsdans une université. Les anciens étudiants signifient les personnes qui sont diplômés en licence, masteur ou docorat. Pour mieux refléter la performance académique d’une université, les étudiants des époques différentes sont accordés des poids différents. Le poids augmente de 10% tous les dix ans. Par exemple, le poids des étudiants de 2001 à2010 est de 100%, celui de 1991 à 2000 90%, celui de 1911 à 1920 10%. Enfin, on calcule le chiffre pondéré dupuis l’année 1911. Si un ancien étudiant a obtenu plus de 2 diplômes, on ne calcule que la dernière fois.

Award signifie le nombre de Prix Noble (physique, chimie, physiologi ou médecine, économie) et Médailles Fields (mathématiques) pris par les professeurs d’une universitéé. Pour mieux refléter la performance académique d’une université, les professeurs des époques différentes sont accordés des poids différents. Le poids augmente de 10% tous les dix ans. Par exemple, le poids des profs apres 2011 est de 100%, celui de 2001 à2010 est de 90%, celui de 1991 à 2000 80%, celui de 1921 à 1930 10%. Enfin, on calcule le chiffre pondéré dupuis l’année 1921. Si le prof travaille en même temps dans deux universités, chaque établissement occupe 50% de ce chiffre. Le poids des professeurs qui partagent un Prix Nobel est la proportion des récompenses.

HiCi Le nombre de chercheurs les plus cités qui sont sélectionnés par Thomson Reuters. Thomson Reuters a publié deux listes de chercheurs les plus cités: l'ancienne liste a été publiée pour la première fois en 2001, en identifiant plus de 6000 chercheurs. Le nombre de chercheurs hautement cités sur cette liste a été utilisé dans ARWU de 2003 à 2013. En 2014, Thomson Reuters a développé une nouvelle liste des chercheurs les plus cités avec presque 3000 noms basés sur une méthodologie différente. Afin d'avoir une transition relativement douce à la nouvelle liste des chercheurs les plus cités et d'éviter trop de fluctuations de résultats du classement en raison de ce changement, à la fois l'ancienne et la nouvelle liste des chercheurs les plus cités sont utilisés dans le calcul de l'indicateur HiCi dans ARWU 2015, et elles sont pondérés de façon égale. Le score d'un établissement sur HiCi dans ARWU 2015 est la somme de son score pour l'ancienne liste et la nouvelle liste (Cliquez ici pour voir toutes ces scores). Le score HiCi d'un établissement sur l'ancienne liste est même que son score HiCi dans ARWU 2013, et le score HiCi d'un établissement sur la nouvelle liste dépend de son nombre de chercheurs les plus cités sur la nouvelle liste. Il est à noter que, Prämie la proposition de nombreus établissements et chercheurs, y compris des chercheurs les plus cités, seuls les apparitions primaires de nouveaux chercheurs les plus cités sont pris en compte dans le calcul de la score HiCi d'un établissement sur la nouvelle liste.

N&S Le nombre d'articles publiés dans Nature et Science entre 2010 et 2014. Afin de distinguer l'ordre de l'auteur apparation, un poids de 100% est appliquée pour l'auteur correspondant, 50% pour l'auteur de la première apparation(deuxième apparation de l'auteur si la première est le même que celle de l'auteur correspondant), 25% pour l'auteur de troisième propositin, et 10% pour les autres auteusr. Seules les publications d’article type est prises en considération.

PUB Le nombre total d'articles inclus le Science Citation Index-Expanded (SCIE) et le Social Science Citation Index (SSCI) en 2014. Seulement les publications d’article de type est prises en compte. Lors du calcul du nombre total de dissertation d'une institution, 'un poids particulier des deux a été introduit pour les papiers indexées dans le Social Science Citation Index.

PCP Les scores pondérés des cinq indicateurs ci-dessus respectivement divisé par le nombre de personnels universitaires à temps plein. Si le nombre de membres dess personnels académiques des institutions d'un pays ne peut pas être obtenu, les scores pondérés des cinq indicateurs ci-dessus sont utilisés. Pour ARWU 2015, le nombre de personnels universitaire équivalent à temps plein sont utilisé pour les institutions aux Etats-Unis, au Royaume-Uni, en France, au Canada, au Japon, en Italie, en Chine, en Australie, aux Pays-Bas, en Suède, en Suisse, en Belgique, en Corée du Sud, en tchèque, en Slovénie, en Nouvelle-Zélande, etc

Sources de chiffres

Le prix Nobel:http://nobelprize.org/

Médailles Fields:http://www.mathunion.org/index.php?id=prizewinners

chercheurs les plus cités dans leur discipline(HiCi):http://www.highlycited.com

Dissertations publiées dans Nature et Science:http://www.webofknowledge.com

dissertaitions répertoriés dans, le Science Citation Index-Expanded (SCIE) et le Social Science Citation Index (SSCI):http://www.webofknowledge.com

Les chiffres sur les nombres de professeurs: Les ministres d’éducation, les agences statistiques, les associations des présidents d’universités.