Non classé

Méthodes #2 Lecture critique d’un article scientifique

Ce post un peu technique est la retranscription d’une partie d’un cours que je dispense. J’ai pensé utile de le mettre là, ça peut toujours servir.

L’objectif de ce cours est de gérer sa bibliographie. C’est à dire d’apprendre à:
-Rechercher les articles pertinents ;
-Créer sa base de données d’articles ;
-Se procurer les documents ;
-Organiser/archiver ses documents ;
-Lire les documents scientifiques ;
-Insérer les références dans un document scientifique.

Je vous présente juste la partie « Lire les documents scientifiques ».

Let’s start.

1- Prélecture

Au moment où l’on fait sa recherche bibliographique (quand on cherche des articles à partir de mots clefs dans Google Scholar ou un autre moteur de recherche), il est utile de faire une prélecture. Bien sûr, vous lisez les titres. Si un titre indique que l’article est connexe à votre thématique de travail, on lira en général l’abstract. On importera alors dans sa base de données biblio toutes les notices d’articles qu’on pense pertinent pour sa thématique de recherche.

A ce stade, deux possibilités:

– L’article semble très pertinent. On le met de coté pour une lecture critique (moi, en général, je l’imprime pour ne pas oublier)

– L’article semble plus ou moins pertinent. On peut en faire une lecture en diagonale, sur l’écran, pour mieux se rendre compte. Après la lecture en diagonale, soit on pense qu’il va falloir approfondir, on peut mettre de côté pour une lecture critique, soit on pense que l’article n’est que moyennement pertinent… on peut laisser (on l’a dans la base de données de toutes manières si on veut y revenir plus tard).

 

Notez que tout article cité dans un document scientifique doit avoir été lu. Quand on dit lu, ça veut dire qu’il faut que vous ayez vérifié que l’article dit bien ce que vous avancez (se reposer sur la citation d’autrui présente le risque que le propos soit déformé d’une citation à une autre). Mais ça veut également dire que vous devez vous assurer que la citation supporte le « fait» que vous avancez. Si vous dites « le remède X soigne le cancer (citation de X)» alors que les méthodes de l’article que vous citez vous paraissent ubuesques, le fait n’est pas démontré… et n’est donc plus un fait. Le chercheur à un rôle à jouer dans la « sélection naturelle» des articles qui permettent d’établir des faits et de faire avancer sa thématique.  D’où l’importance de la lecture critique.

 

2- Lecture critique

Une lecture critique demande un peu de temps, et de la concentration. Ça vaut le coup de se mettre à l’aise, de diminuer les interruptions (imprimer, ça aide, ça limite les notifications informatiques diverses…), et de prendre un stylo et un surligneur.

Pour faire une bonne lecture critique et active (et non pas une lecture passive au bout de laquelle on se demande trop souvent «mais, ça dit quoi en fait ??? »), il faut deux choses: (i) bien comprendre comment est structuré un article scientifique, et (ii) se poser des questions au fur et à mesure de la lecture.

En ce qui concerne la structure, le format qu’on rencontre le plus généralement, c’est le format IMRED. IMRED pour Introduction, Matériels et méthodes, REsultats, Discussion. Mais ensuite, à l’intérieur de chaque section, il y a également une structure assez constante d’un article à un autre. Nous allons faire un exemple pratique de lecture critique sur cet article, qui présente l’avantage d’être en français :

  IlluArticle

Vous pouvez le télécharger à ce lien.

a)      Introduction

Une introduction est sectionable en trois parties. Le début d’une introduction donne le contexte, ce qui a déjà été publié sur le sujet abordé par l’étude (revue de littérature). Le format de ce début d’introduction est  en «  entonnoir», c’est-à-dire qu’on va du plus général au plus spécifique.

Le contexte prend un général pas mal de place et de paragraphes. Au fur et à mesure que sont présentés les travaux antérieurs, le lecteur est amené progressivement à ce que ces travaux antérieurs n’ont pas abordé, pas étudié. C’est la seconde partie, le « gap». Gap signifiant « fossé».

Une fois le gap identifié, le lecteur est amené à ce que l’étude va aborder (logiquement, quelque chose qui n’a pas encore été étudié). Cette 3e et dernière partie, c’est la problématique.

 

On identifie clairement ces 3 parties dans l’article qui nous intéresse :

 Intro

En ce qui concerne la 1ere partie (contexte), on voit très bien, également, que la 1ere phrase est très générale (« en général, on regarde des paramètres sanguin pour apprécier l’état de santé d’un animal »), quand la suite est plus spécifique (« chez le chien, les marqueurs les plus spécifiques sont ceci cela».

La seconde partie identifie le gap, en citant la littérature et en expliquant ses lacunes. En l’occurrence, il manque de données de référence pour évaluer l’état de santé des chiens « tout venant» agés.

Naturellement, la problématique de l’étude est donc de produire de telles données.

 

A ce stade, et avant d’aborder la section suivante, il convient de se poser quelques questions :

–          Ai-je bien compris la problématique de l’étude ? (vous devez pouvoir la formuler mentalement en une phrase)

–         Si je devais faire cette étude moi-même, quelles méthodes est-ce que j’utiliserais ? Il est important de se poser cette question pour aborder la question suivante d’un œil critique.

Par exemple, j’imagine que je choisirais des chiens a priori en bonne santé (puisqu’on veut étudier des valeurs de référence, donc des valeurs applicables aux chiens en bonne santé), dont certains seront âgés, et d’autres plus jeunes, afin de les comparer et de voir si les chiens âgés ont des valeurs équivalentes aux chiens jeunes. On peut aussi réfléchir aux méthodes de prélèvement, aux méthodes statistiques qu’on utiliserait pour traiter les données, etc.

 

b)     Matériels et Méthodes

Nous pouvons donc aborder la lecture des M&M avec en tête la réponse aux questions précédentes. La section M&M contiendra différentes sections, qui pourront varier d’un type d’étude à un autre. Pour une étude transversale comme celle de l’article, il est classique de trouver une section qui décrit la méthode d’échantillonnage (section Animaux dans l’article), une section qui décrit les techniques de prélèvement des échantillons (section Prélèvements), une section qui décrit les méthodes de traitement des échantillons au laboratoire (section Analyse), et une méthode qui décrit les outils statistiques utilisés pour analyser les données (section Comparaison des résultats).

Au fur et à mesure de la lecture, l’objectif est de comparer les méthodes présentées avec celles que vous auriez mis en œuvre, vous, c’est-à-dire d’avoir une lecture critique. C’est également d’identifier la portée et les limites de l’étude (la portée d’une étude, c’est le contraire de ses limites, et c’est jusqu’à quel point on pourra généraliser ses résultats… exemple, si ses résultats sont « positifs  », l’étude de Briend-Marchal et al permettra-t’elle de penser que les chiens de grande race et âgés ont des paramètres différents des chiens de grande race mais jeunes?)

Vous pouvez lire la première section (Animaux).

SectionMM1

Effectivement, les chiens ont été sélectionnés de manière à être a priori en bonne santé. Bien sur, il y a des critères plus ou moins sensibles et plus ou moins spécifiques. Il est possible que des chiens porteurs de maladies qui n’affectent pas ces critères soient sélectionnés. Ce sera sans doute une limite de l’étude, mais on peut difficilement faire autrement. On a sélectionné des chiens de race petite ou moyenne (mais pas de race grande, car ils vivent moins longtemps et ont donc des classes d’âges différentes, c’était expliqué en introduction). Ainsi l’étude à une portée directe pour les chiens de race petite et moyenne,  mais sa portée n’est qu’indirect pour les chiens de race grande (i.e. on pourra tirer des indices pour les chiens de race grande si on fait l’hypothèse qu’ils vieillissent de la même manière). L’effectif total des chiens est de quelques dizaines. Sachant que les chiens sont de tous sexes et toutes races, il risque d’y avoir beaucoup de variabilité, et cet effectif risque donc d’être un peu faible pour avoir assez de puissance statistique (c-à-d pour détecter des différences significatives entre les paramètres s’il y en a). On verra ce que ça donne.

Vous pouvez lire la seconde section (Prélèvements).

SectionMM2

On a prélevé du sang chez tous les animaux. On fera l’hématogramme et la VS sur tous les échantillons, mais la fibrinogénémie seulement chez les 27 adultes et 26 chiens agés (plutôt que les 63). C’est aussi uniquement pour ce sous-groupe d’animaux que seront réalisés les dosages de protéines et l’éléctrophorèse. On ne comprend pas trop pourquoi ces mesures ne sont pas faites sur l’ensemble des animaux, mais soit. On garde cette information dans un coin.

Vous pouvez lire la 3e section (Analyses). Elle est longue et je ne suis pas biologiste moléculaire, donc je laisse les personnes qui ont les compétences nécessaires apprécier la pertinence des choix méthodologiques (a priori, il y a peu de chances que ces choix soient critiques, car ils correspondent à des analyses cliniques de routine).

Enfin, vous pouvez lire la 4e section (Comparaison des valeurs).

SectionMM3

On voit que finalement, bien qu’on ait parlé de prélevements de sang et d’analyses de laboratoire pour l’hémogramme, la VS, et la fibrinogénémie, on n’utilisera pas ces données, mais on comparera les valeurs des chiens âgés directement aux valeurs de références utilisées en clinique. On comprend que l’objectif initial était de comparer aux chiens adultes échantillonnés, mais qu’il y a dû avoir un problème avec les échantillons… ou les résultats, qui les a fait changer de méthode en cours de route. Ça pose un double problème. Premièrement, s’ils ont changé la méthodologie pour obtenir des résultats plutôt que d’autres, c’est du p-hacking (ça manque de rigueur scientifique). S’il y a eu un problème avec les échantillons, il convient de le signaler, pour écarter tout doute, et cette précision manque. Donc le doute subsiste. Deuxièmement, on ne sait pas comment ont été échantillonnés les chiens qui ont servi à établir les valeurs de référence. Avait-on utilisé les mêmes critères de bonne santé ? Dans le cas contraire, comment pourrait-on savoir, si on observe une différence entre chiens adultes, et chiens âgés, si cette différence est due à l’âge, ou si elle est due à des critères d’échantillonnage différents ? On ne pourra pas. Peut-être que la méthode de sélection des chiens était la même, mais ce n’est pas précisé. Donc là encore, le doute subsiste.

Nous pouvons à présent nous attaquer à la lecture des résultats.

c)     Résultats

Les résultats sont présentés de manière brute, et ne sont pas interprétés dans cette section. L’interprétation des auteurs sera faite dans la section discussion. Cependant, vous, au fur et à mesure de la lecture, vous pouvez déjà identifier de quelle manière les résultats répondent à la question posée, et penser aux interprétations possibles de ces résultats (au regard de la problématique de l’étude).

Ainsi: ces résultats indiquent-ils que les paramètres des chiens âgés sont différents de ceux des chiens adultes?

La première partie des résultats nous présente les résultats d’hémogrammes, en lien avec le tableau 1. Nous pouvons commencer par jeter un œil au tableau, sur la page suivante :
SectionR2

Le tableau représente le nombre de chien en dessous, dans, et au dessus des valeurs de référence pour chaque paramètre de l’hémogramme. On remarque que pour la plupart des paramètres, il n’y a pas beaucoup (0, un, ou deux ) de chiens au dessus et au dessous : les chiens ont l’air de rentrer dans les valeurs de référence. Par contre on remarque le 6 au dessous pour les neutrophiles (mais il y a aussi 2 au dessus… peut être qu’il y a une différence de variance ?), le 5 au dessus pour les eosinophiles, le 21 au dessous, un résultat assez net pour les lymphocytes, le 6 au dessus pour les monocytes, et le 11 au dessus pour les plaquettes. Les résultats ont l’air marqués surtout pour les lymphocytes et les plaquettes, et il y a peut-être quelque chose mais sans certitude pour les neutrophiles, les eosinophiles et les monocytes. Voyons maintenant ce qu’en disent les auteurs :
SectionR1

Ok, pour l’hémogramme, ils remarquent à peu près la même chose que nous. Ils retranscrivent les pourcentages, ce qui permet de se rendre un peu mieux compte.

Puis ils décrivent les résultats pour la VS. Elle est normale (donc dans l’intervalle de référence) pour 67% des chiens âgés. En dehors de l’intervalle pour les 100-67=33% restants.

Enfin ils décrivent les résultats pour la fibrinogénémie, normale pour 23 cas sur 26 (donc anormale pour 3/26*100=11% des cas.

Que déduire de ces résultats ? Qu’avec les critères de bonne santé utilisés, certains chiens âgés sortent des valeurs standards. Faut-il en déduire que des valeurs de référence doivent être redéfinies spécifiquement pour les chiens âgés (puisque c’était la problématique de l’article) ? Ce n’est pas clair, peut être que parmi les chiens adultes échantillonnés, on aurait également eu des animaux sortant des valeurs de référence. Soit parce que les valeurs de référence sont stringentes (=plus étroites que la variabilité naturelle des chiens pour ces paramètres), soit parce que des chiens sont porteurs de maux non détectés par les critères de sélection utilisés. Les valeurs de référence servent justement à détecter ces maux, donc on ne voudra pas les changer.

On aurait pu interpréter la problématique différemment, à savoir : « quelle proportion de chiens âgés sortent des valeurs de référence sans pour autant que ce soit très inquiétant » (en supposant qu’on ait déjà cette information pour les chiens adultes). Mais dans ce cas, pour répondre à la question posée, il aurait été utile de pousser l’étude plus loin, en faisant la recherche, pour chaque chien sortant des valeurs de référence, d’éventuels parasites ou d’autres pathologies. En effet, l’objectif d’une telle question serait de savoir dans quelle mesure, quand on chien sort des valeurs de référence, il est utile de pousser la recherche de pathologies.

Nous pouvons passer à la seconde partie des résultats, qui concerne la protidémie et l’électrophorèse et s’appuie sur le tableau II :
SectionR4
On peut comparer les chiens adultes et les chiens âgés pour chaque colonne qui correspond à un paramètre. On remarque qu’il y a une différence moyenne dans le dosage des protéines (1ere colonne) entre les adultes et les jeunes, mais lorsqu’on regarde l’étendue (les valeurs sous les moyennes), on se rend compte que le minimum est 52 pour les jeunes, et 54 pour les âgés, et le maximum est 78 pour les jeunes et 80 pour les âgés. Ces étendues sont a peu près similaires, on s’attend donc à ce que la différence de moyenne observée ne soit pas tellement significative. Ainsi de suite pour toutes les colonnes du tableau. Il n’y a que pour l’alpha 2 globuline que l’écart entre les moyennes semble un peu plus important. Et effectivement, il y a une étoile, ce qui indique que cette différence est statistiquement significative. Voyons ce qu’en disent les auteurs.
SectionR3

Dans le deuxième paragraphe, on note que leurs observations sont similaires aux notres. Cela signifie-t-il qu’il n’y a pas tellement de différences pour ces paramètres ? Souvenons-nous qu’il y avait peu de chiens au total, et que pour ces paramètres, seuls 26 et 27 chiens de chaque groupe ont été utilisés. Nous avions indiqué que le faible nombre de chien diminuait le pouvoir statistique, c’est-à-dire qu’il serait difficile de détecter des différences, même s’il y en avait. Par ailleurs, il est indiqué dans les méthodes que pour certaines des comparaisons, c’est un test de Mann-Withney qui a été utilisé. Or ce test est non paramétrique, ce qui ajoute encore à la perte de pouvoir statistique. Il est donc difficile de conclure de ces résultats que si on ne détecte pas de différence entre chiens adultes et chiens âgés, c’est parce qu’il n’y en a pas.

d)     Discussion

Nous arrivons à la discussion. Le fait d’avoir discuté nous même les résultats nous permettra d’être plus critiques vis-à-vis de la discussion des auteurs. Comme pour l’introduction, les discussions ont une structure récurrente. En général, on trouve dans la discussion:

–         Un rappel rapide des principaux résultats ;

–         Une interprétation de ces résultats au regard de la limite et de la portée de l’étude ;

–         Une comparaison des résultats obtenus avec ceux d’autres études, et une recherche d’explications en cas d’éventuelles différences. On évalue si le résultat est inattendu ou s’il conforte la littérature existante ;

–         Une conclusion qui donne une réponse à la problématique annoncée. A ce niveau, vous pouvez vous demander si vous êtes d’accord avec la conclusion des auteurs, et si la réponse apportée à la question vous semble satisfaisante ;

–         Des perspectives, c’est-à-dire des pistes de recherches futures.

Dans le cas présent, le premier paragraphe formule implicitement les limites que nous avons formulées pour l’interprétation des résultats négatifs (protidémie et électrophorèse), à savoir le manque de pouvoir statistique.

Les paragraphes suivants comparent les résultats obtenus avec ceux obtenus par d’autres auteurs,  paramètre par paramètre. Il existe différentes études contradictoires pour les paramètres de l’hémogramme et la présente étude concorde, du coup, toujours avec l’une ou l’autre des études. Pour la VS, les résultats concordent avec ceux des études précédentes (accélération cad « en dehors de valeurs de référence» pour les chiens âgés). Pour la fibrinogénémie, les résultats concordent apparemment avec une autre étude (valeur moyenne supérieure pour les chiens agés comparés aux adultes – mais ce résultat n’apparaissait pas dans la section résultats de la présente étude, ce qui est une erreur de présentation). Pour la protéidémie, les résultats ne concordent pas avec les autres études qui trouvent une augmentation quand la présente étude ne trouve pas de différence significative (sauf pour l’alpha 2 globuline). Mais on peut attribuer cela assez facilement au manque de pouvoir statistique.

Pour résumer les résultats sont inconclusifs pour la plupart des paramètres. A la limite on peut conclure sur la VS et la fibrinogénémie puisque les résultats concordent avec ceux des études précédentes, mais comme nous le disions, du fait de la comparaison avec les valeurs de référence plutôt qu’avec le groupe des chiens adultes, les résultats de comparaison de ces paramètres sont sujets à caution. Au mieux, c’est un indice. Pour la protéidémie et l’éléctrophorèse il y a discordance mais on peut penser que ce sont les résultats des autres études qui ont raison du fait du manque de pouvoir statistique de la présente étude.

Dans l’avant dernier paragraphe, les auteurs résument ce qu’on pour s’attendre à observer chez les chiens agés, sur la base des études précédentes.

Et enfin, dans le dernier paragraphe, on trouve la conclusion. Les trois premières phrases concluent en lisant les différences « importantes» selon eux démontrées par la présente étude. Sommes-nous d’accord avec cette conclusion ? Notre interprétation des résultats diverge, et nous serions moins catégoriques. La dernière phrase présente enfin les perspectives.

 

Voilà, nous avons terminé la lecture critique de cet article. Bien évidemment, cette critique peut paraître acerbe. Chacun, avec sa spécialité et ses compétences, aura sa propre appréciation des limites et de la portée de cette étude. J’insiste particulièrement sur les aspects statistiques. Un vétérinaire aura peut-être une connaissance des valeurs de paramètres habituelles qui l’amèneront à être moins sévère (peut être que du point de vue d’un vétérinaire, il est très rare que des chiens adultes en bonne santé soient en dehors des valeurs de références, et le fait de comparer aux valeurs de référence plutôt qu’aux chiens adultes échantillonné leur posera alors peut-être moins problème). En tous cas, toute personne qui travaille sur un sujet connexe pourra faire référence aux conclusions de cette étude en tenant compte des limites qu’il a identifiées grâce à une lecture approfondie. Autrement dit, parce que cette étude est scientifique et qu’elle présente ses méthodes, les faits établis par l’étude sont accompagnés d’une mesure du degré de confiance qu’on peut leur accorder. Et c’est ça qui est important.

Non classé

Méthodes #1 « Ce n’est qu’une théorie » : les différents niveaux de preuve

Edit 30/06/2019 : cet article était originellement centré sur les différents niveaux de preuve à considérer dans l’analyse des processus (liens de cause à effet) biologiques. Des retouches assez importantes ont été faites ce jour dans le corps de texte pour élargir un peu les perspectives, mais pour les études descriptives (en biologie ou ailleurs) et les autres disciplines utilisant l’induction ou l’abduction, il conviendra de vous pencher sur les épistémologies qui sont spécifiques à ces approches..

On entend souvent dire des détracteurs de la théorie de l’évolution que « ce n’est qu’une théorie ». Cela sous-entend que la théorie de l’évolution ne serait qu’une proposition disponible pour expliquer la vie, pas plus valable qu’une autre.

Dans le langage commun, « théorie » désigne en effet une explication possible parmi d’autres. Mais dans le langage scientifique, c’est le mot « hypothèse » qui désigne une explication possible parmi d’autres. Le mot théorie, lui désigne une explication déjà étayée par des faits. Une explication qui soit commence à être un peu solide, soit est carrément très solide.

Qu’est-ce qu’un fait? C’est une observation démontrée, une observation pour laquelle le niveau de preuves n’est pas sujet à caution. Si je dis « en général, les fraises sont rouges », c’est un fait. Il faut savoir qu’il existe différent niveaux de preuves. On m’a dit qu’il existe des fraises bleues. Mais une expérience individuelle, rapportée par des « on-dit », ne constitue pas une preuve, car il n’est pas possible de vérifier la fiabilité de la source de notre information (qui a dit? cette personne est-elle fiable? est-elle daltonienne? Est-ce que l’information n’a pas été déformée par les intermédiaires?). Ma sœur m’a dit qu’elle a déjà vu des fraises bleues. Un peu mieux, mais cet argument n’est pas recevable auprès d’une tierce personne, qui ne connait pas ma sœur. Tel expert à dit (dans un livre/une vidéo/un blog) qu’il existe des fraises bleues. Où ? Quand ? Quelle variété ? Là encore, des questions se posent, auxquelles il est difficile de répondre. Au mieux, on peut penser qu’il existe des indices qu’il existe des fraises bleues. Pas de preuves. C’est pourquoi l’ensemble de ces sources ne sont pas acceptables dans un argumentaire scientifique. Dans un argumentaire scientifique, on ne retiendra que les sources qui sont accessibles ou qui fournissent la méthode qui a permis d’obtenir l’information. En effet, c’est grâce à l’étude attentive de ces méthodes qu’on pourra étudier la portée et les limites de cette information. Nous saurons qui a fourni l’observation, dans quel contexte elle a été faite, et ce que la méthodologie permet d’en conclure. Il sera possible de procéder à une analyse critique de l’information.

Une étude peut donc constituer une preuve si sa méthodologie, une fois décortiquée, parait robuste. Mais ensuite, même parmi les différentes études, toutes ne confèrent pas le même niveau de preuve. Ainsi, une étude de cas (une fraise bleue à été observée, cela est rapporté dans une étude publiée, qui indique le contexte de l’observation, l’auteur, etc.) ne permet de conclure que de manière limitée (il existe au moins une fraise bleue). D’autres études sont nécessaires pour permettre d’établir des faits généralisables. Cependant, des disciplines entières n’ont accès qu’à ce niveau de preuve (les études anthropologiques sont des études de cas, par exemple). Ce n’est pas un problème dans la mesure où elles sont très vigilantes dans la manière dont leurs observations peuvent être extrapolées (les conclusions sont reconnues comme contextuelles). A noter, l’étude d’un seul cas peut servir de contre exemple à une loi et donc suffire à la questionner. Par exemple la description d’un lion albinos peut suffire à invalider la loi d’après laquelle tous les lions sont oranges.

A ce stade, il est à noter que les témoignages et les études de cas n’ont pas la même valeur de preuve selon que l’étude est descriptive, ou analytique. Pour une approche descriptive (qui consiste à décrire des observations), le recoupement de témoignages indépendants peut avoir une valeur de preuve forte (par exemple, le recoupement des témoignages d’anciens déportés peut permettre de décrire les conditions de vie dans les camps pendant la Shoah). Ci après, nous nous concentrerons plus spécifiquement sur la valeur des différentes preuves pour des analyses de types analytiques (celles qui consistent à déterminer les liens de cause à effet).

Les différentes sources d’information et leur fiabilité pour l’inférence d’un lien de cause à effet sont inventoriés dans la figure suivante, et un nouvel exemple est donné pour les illustrer : l’efficacité d’un remède X pour guérir une maladie donnée.

NiveauxDePreuve 2

Dans la partie du bas, nous avons classé ce que nous qualifions d’indices : en l’absence d’autres informations disponibles, les témoignages individuels rapportés (la sagesse populaire, qui s’enracine en général dans une connaissance empirique du monde) peuvent par exemple servir à formuler des hypothèses qui devront être creusées. Nous avons placé la parole d’expert un peu au dessus des témoignages rapportés via le bouche à oreille, en faisant l’hypothèse que l’expert, comme la plupart des individus, pourra parfois se laisser aller à présenter comme des évidences des assertions qui n’ont pas été parfaitement vérifiées, par abus de confiance (l’expert, comme tout le monde, peut se laisser aller au témoignage rapporté, en quelques sortes), mais qu’en moyenne, l’expert qui publie un livre aura plus souvent fait l’effort de vérifier les sources de ses affirmations.

Dans la partie supérieure, nous avons reporté ce que nous qualifions de preuves, c’est à dire d’éléments qui sont rapportés par des sources directes et qui, lorsqu’ils concordent avec ce qui est connu par ailleurs, renforcent la confiance que l’on peut avoir dans une hypothèse. Dans les sciences biologiques (plus précisément, épidémiologiques), au dessus de l’étude de cas, on a l’étude cas témoin et l’étude transversale. Il y a déjà un saut énorme dans la logique comparé aux autres « sources». En effet, dans ces études, on va commencer  à avoir une démarche « statistique». Jusque-là on avait une information ne concernant qu’un seul individu ou appréciée « à la louche» par un seul individu. Dans les études, un individu n’est plus suffisant, il faut de nombreux individus (un échantillon), et si on veut étudier, par exemple, l’efficacité d’un traitement, on va (dans une étude cas témoin) commencer à comparer les individus entre eux, pour voir si ceux qui ont pris le traitement guérissent plus vite que ceux qui n’en n’ont pas pris. Mais dans une étude cas-témoin, on ne contrôle pas tous les facteurs. On ne fait qu’enregistrer l’information rapportée par les individus, à un temps t. Les personnes qui disent avoir pris le traitement peuvent se tromper ou ne pas l’avoir pris aux doses indiquées, mais on ne peut pas vérifier, par exemple. C’est une limite de ces études. Dans les études expérimentales, par contre, on va administrer nous même le traitement, ce qui permet de contrôler l’ensemble des conditions de l’étude. On pourra réduire les sources de variation au maximum. Par exemple, on sait qu’il existe un effet placebo, c’est à dire que prendre un traitement, même inefficace, accélère la guérison. Ainsi, on pourra donner le traitement X à un groupe de personnes, et un placebo (un faux traitement, des comprimés de sucre par exemple) à un autre groupe, pour vérifier que c’est bien la molécule X, et pas le fait de prendre un comprimé, qui améliore la guérison. C’est pourquoi l’étude expérimentale est particulièrement prisée : elle donne un argument fort pour établir des liens de cause à effet. Dans une étude de cohorte, on suit les individus au fur et à mesure du temps. On ne contrôle pas tout mais comme on suit les individus, il est plus facile de contrôler la véracité des informations. Bien entendu, si on ne fait pas toujours des études expérimentales, c’est parce qu’elles posent des questions éthiques (notamment sur les animaux vertébrés et les humains). Il  faut parfois accumuler des preuves de faible niveau avant de lancer une étude expérimentale qui permettra d’obtenir des preuves de plus haut niveau (par exemple, le remède X pourrait être une plante utilisée de manière traditionnelle, un « remède de grand-mère». Si on veut étudier l’efficacité de ce remède, on commencera d’autant plus par chercher des preuves de faible niveau (avant de chercher des preuves de haut niveau) que le risque d’effets secondaires est élevé.

Un autre aspect à prendre en compte, c’est que correlation is not causation (cet autre billet) : pour déduire qu’un phénomène est la cause d’un autre (par exemple que A cause B), il y a plusieurs critères à vérifier. Or, les différents types d’étude ne permettent pas de vérifier tous les critères à la fois. Voici les critères que chaque type d’étude permet de vérifier :

tableau croix et ticks2

On remarque que les témoignages, pourtant souvent dénigrés comme élément de preuve, lorsqu’ils sont qualitatifs, peuvent permettre d’éclairer la compréhension du contexte, donc de contribuer à donner des éléments de plausibilité (par exemple, le témoignage des personnes qui sont piqués par les moustiques la nuit contribue contextuellement à démontrer que le paludisme est transmis à l’humain par les piqûres de moustiques), tandis que l’étude expérimentale permet de vérifier le plus de critères, mais ne fourni que des éléments quantitatifs, qui n’informent pas sur les mécanismes. Pour tester la cohérence logique de l’explication du fonctionnement d’un système (processus physique, chimique, écologique, évolutionnaire, etc.), il sera également possible de faire appel à la modélisation, c’est-à-dire la mise en équation des phénomènes. Ainsi, c’est très important, aucun de ces types d’études ne permet de trancher complètement. La crédibilité que l’on peut donner à une hypothèse s’évalue en mettant dans la balance l’ensemble des éléments de preuve disponible. Si la crédibilité est jugée (assez subjectivement) suffisante, l’hypothèse sera élevée au rang de théorie.

Petit résumé : une hypothèse est une explication émise à partir d’observations « informelles».  Une théorie est une explication étayée par des faits. Des faits, ce sont des observations confortées par des preuves solides, c’est-à-dire dont chacun peut évaluer facilement la fiabilité. En sciences, les études publiées sont les seules sources qui  permettent d’évaluer la fiabilité d’une preuve, donc les seules sources considérées comme acceptables. Par ailleurs, elles sont également les seules à permettre d’étudier correctement les liens de cause à effet entre les phénomènes.

Mais une étude ne peut pas, à elle seule, constituer une preuve absolue et définitive. Au delà de leurs limites intrinsèques décrites ci-avant, une étude peut avoir été falsifiée (fraude scientifique), ou être un faux négatif (par le jeu du hasard, on a observé que les patients qui recevaient le traitement X ont guérit plus vite, mais en réalité, c’est juste que les patients sélectionnés pour recevoir le traitement avaient une meilleure immunité… pas de chance).  Sélectionner une seule étude parmi un grand nombre existant, alors qu’elle obtient des résultats contraires à toutes les autres, c’est du cherry picking. Le meilleur niveau de preuve, c’est lorsque la majorité des études et analyses de la question parviennent à des résultats convergent. Ainsi, les méta-analyses ou les revues de la littérature, qui récapitulent l’ensemble des résultats et discussions relatifs à une hypothèse, et permettent d’établir un consensus scientifique, fournissent le meilleur niveau de preuves disponible. Cela ne veut pas dire qu’il ne faille pas lire leur méthodologie…. pour vérifier par soi-même leur fiabilité, et donc garder un œil critique.

Article originellement publié le 24 mai 2016. Republié le 10 mars 2018 suite à migration du site. Réédité le 30 juin 2019.

Non classé

Stats #5 Correlation does not equal causation : ok, mais pourquoi?

Vous avez peut-être déjà entendu cette maxime, qui insiste sur le fait que corrélation n’implique pas toujours causalité.  On va explorer ici les multiples cas de figure où une corrélation peut être observée sans qu’il n’y ait absolument aucun lien de causalité sous-jacent.

Cas de figure 1 : la pure coïncidence.

En statistiques, si on apprend un truc, c’est que quand on cherche… on trouve. Lorsque l’on fait des statistiques dans tous les sens, il y a une infinité de combinaisons possibles, si bien que par pure coïncidence, on puisse trouver des corrélations totalement fortuites. A tel point qu’un site, Spurious corrélations, s’est donné pour mission de répertorier les corrélations les plus absurdes. Par exemple, cette corrélation entre la consommation de margarine et le taux de divorce dans l’état du Maine, aux USA. Pour commencer à suspecter un lien de cause à effet lorsqu’il y a une corrélation, la première exigence, c’est d’avoir, a priori, des raisons logiques de penser qu’il puisse y avoir un lien de cause à effet. La seconde, c’est qu’un pattern devrait se retrouver dans différents contextes sans trop d’altération. Ici, les données sont réduites à l’état du Maine, et il est probable que si on regardait la corrélation dans d’autres états… on ne la retrouverait pas.

SpuriousCorrelation

Cas de figure 2 : une cause commune

Imaginons, vous tombez sur un article qui montre qu’il y a une corrélation entre le fait d’être en surpoids et le risque de maladies cardiaques. Cela fait sens. Le surpoids consiste en l’accumulation de graisses, et ce sont les acides gras qui provoquent des accidents cardiaques. Cependant, une telle corrélation pourrait tout aussi bien être due au schéma suivant :

corrcaus1

Si tel était le cas, une thérapie qui consisterait à perdre du poids n’aurait aucune incidence sur les maladies cardiaques, car elle n’agirait pas sur la cause réelle des maladies cardiaques : la musculation du coeur. Pour inférer un lien de causalité entre le poids et les maladies cardiaques, dans ce cas, il va être nécessaire de « stratifier » l’échantillon d’étude. Il faudra faire plusieurs groupes d’individus en fonction du degré de musculation du cœur, et regarder si la corrélation entre le poids et l’occurrence des maladies cardiaque persiste… à l’intérieur de chacun de ses groupes. En effet, à l’intérieur de chaque groupe, tout le monde ayant la même musculature cardiaque, les différences qui seraient observées seraient réellement liées au poids. Et il est tout à fait possible que les deux variables aient un effet, évidemment.

 

Cas de figure 3 : ce n’est pas A qui cause B, mais B qui cause A (causalité inversée).

Imaginons que les femmes soient (en moyenne) moins payées que les hommes, et qu’en cherchant à décomposer les causes de cette différence, on se rende compte que les femmes occupent plus souvent des emplois moins bien payés que les hommes. On pourrait s’empresser de conclure que les femmes gagnent moins que les hommes parce qu’elles choisissent des emplois moins bien rémunérés. Mais ce serait oublier que la causalité peut tout aussi bien être inversée : les emplois plus souvent occupés par les femmes auraient une rémunération moyenne inférieure aux emplois plus souvent occupés par les hommes, parce que les femmes sont discriminées.

autismecausevaccines

Cas de figure 4 : la causalité sans corrélation

Pour terminer, un petit cas particulier. Peut-il y avoir un lien de causalité sans qu’on ait mesuré de corrélation ? Et bien même si c’est improbable, ce n’est pas impossible. Imaginez que vous compariez l’efficacité de deux traitements, A et B, sur une maladie. Vous ne trouvez aucun effet, l’efficacité comparée des deux traitements est identique, et vous publiez donc votre résultat dans le Journal of null results :

corrcaus2

Peu de temps après la publication, il y a votre pote Julie, qui est chimiste, qui a lu votre publi et qui vous dit : « hé j’ai vu ta publi, mais tu sais que A et B sont des molécules qui interagissent avec la caféine ? Tu devrais contrôler cette variable quand même ». Du coup, vous interrogez un peu vos patients, vous ré analysez les données, et là, que trouvez-vous ?

corrcaus3

Tadaaam. Vous trouvez que le traitement A est plus efficace chez les patients qui boivent du café, et B plus efficace chez les patients qui n’en boivent pas. Si on fait la moyenne des groupes en considérant qu’il y a à peu près autant de buveurs de café que de non buveurs de café, on retombe à peu près sur le graphe ci-dessus.

Alors, je parle de ce cas particulier, qui est assez improbable, parce que je l’ai déjà vu apparaitre chez des tenants de « médecines alternatives» (enfin, c’est rare, mais chez les plus malins), pour défendre l’idée que leur médecine fonctionne, mais que ça se voit pas dans les statistiques, parce que « ça dépends des individus ». Alors, oui, c’est une possibilité c’est vrai. Mais le truc, c’est que tant qu’on sait pas « de quelle manière ça dépends des individus », et bien…. ça sert à rien. Si je donne A et B aux individus sans savoir que A marche mieux pour certains et B pour d’autres parce que les uns boivent du café et d’autres pas, alors mon résultat, c’est le graphe du dessus : ça marche pas mieux avec un traitement que l’autre. Du coup, si jamais ils ont une idée claire de la raison pour laquelle leur médecine alternative n’est pas ‘statistiquement’ plus efficace qu’un placebo, mais qu’elle peut être efficace pour certains individus en particulier, alors c’est très simple : j’invite ces tenants à mettre en place un protocole qui teste l’efficacité de la médecine alternative en question en contrôlant explicitement la caractéristique des individus qu’ils utilisent comme indicateur de l’efficacité probable de cette médecine pour ces individus. Si ça marche, vous serez célèbres.

Comment s’assurer qu’une corrélation correspond à un lien de causalité?

Et bien, il y a quelques critères à vérifier,  notamment :

–        La temporalité (A se produit avant B).

–        La plausibilité (explication mécanique / coherence logique: ex la mutation kdr-R qui code l’allèle de résistance aux insecticides, pourrait générer un cout physiologique tel que le moustique dispose de moins de ressources pour lutter contre le parasite et pourrait être plus souvent infecté, donc je m’attends à observer une possible corrélation entre la présence de ce gène et le taux d’infection).

–        Gradient biologique (Plus de A correspond à plus de B: ex les hétérozygotes kdr-R/kdr-S sont moins infectés que les homozygotes kdr-R/kdr-R et plus infectés que les homozygotes kdr-S/kdr-S).

–        Consistance / pouvoir prédictif: le lien entre A et B est retrouvé dans de nombreux contexts et de nombreuses conditions (e.g. dans de nombreux sites d’étude ou populations)

–        Dégré de l’association ( / ou corrélation), taille d’effet élevée.

–        Spécificité: B est rarement trouvé sans A (mais souvenez vous que si A ->B, B peut aussi avoir plusieurs causes)

–        Préventabilité (test experimental : le gold standard): si A est supprimé, B disparait.

Si vous voulez un récap sur les différents niveaux de preuve et les études qui permettent de les obtenir, n’hésitez pas à relire cet autre billet.

Voilà, ce billet se sera fait attendre, mais c’est fait ! J’espère que vous aurez aimé.

Article originellement publié le 18 nov. 2017, republié le 07 mars 2018 suite à migration du site.

Non classé

Stats #4 Faire de son cas une généralité

Le bon sens le sait : il ne faut pas faire d’un cas une généralité. Pour autant, peut-on faire une généralité à partir de 2 cas ? de 10 cas ? de 20 cas ? On « sent bien» que plus il y aura de cas, plus notre généralité aura de chances d’être juste… cependant, pour que ce soit le cas, il y a deux conditions importantes à remplir : 1-avoir « assez » d’individus, et 2- que ces individus soient représentatifs.

1-      Avoir des individus représentatifs

Règle number one, très très importante : vous aurez beau avoir 1 million de cas, ils n’auront absolument aucune valeur si ces cas ne sont pas représentatifs de l’ensemble sur lequel vous voulez tirer une généralité.

Représentatif, ça veut dire quoi ? Cela signifie que les individus de mon échantillon doivent représenter la diversité des individus qui existent dans la population. Par exemple, si je veux étudier la taille des français, je dois faire mes mesures sur les français en général, donc avoir des grands, des petits, des moyens, et ce dans des proportions équivalentes à celles de la population française. En gros, si je dessinais la cloche des tailles à partir de mon échantillon d’individus, je dois obtenir à peu près la même que si j’avais mesuré la taille de tous les français sans exception.

Si je vais sur un chantier, et que je mesure tous les hommes présents, ma mesure me donnera une idée de la taille moyenne de l’ouvrier à l’endroit où j’ai été. Je n’ai pas le droit de généraliser à l’ensemble des hommes français, et encore moins à l’ensemble des français tout court (hommes et femmes). En effet, les hommes sont en moyenne plus grands que les femmes, donc en ayant un échantillon qui n’est formé que d’hommes, je surestimerais la taille moyenne de la population française. On dit que si l’échantillon n’est pas représentatif, notre « estimation» de la taille moyenne est biaisée.

Pour obtenir un échantillon représentatif, il existe des méthodes. Je ne vais pas rentrer dans les détails techniques, mais il y a une règle à connaître : plus les individus sont sélectionnés au hasard, mieux c’est. Ainsi, la meilleure de toutes les méthodes, dans l’idéal, serait d’avoir la liste de tous les français, et de tirer le nombre d’individus que l’on souhaite au hasard dans cette liste. Ainsi, on aura des individus de tout genre, toute origine sociale, tout age, etc. Ils seront représentatifs de la population française.

Lorsque l’on fait de son cas (ou des quelques cas qu’on a croisé dans sa vie…) une généralité, on risque très fort de ne pas avoir un échantillon représentatif, mais un échantillon biaisé. En effet, en tant qu’individu, qui que l’on soit, au minimum, on côtoie un certain milieu social spécifique, on a accès ou non à certains services, on ne vit qu’à un seul endroit à la fois. Qui que l’on soit, on n’a donc accès qu’à une partie restreinte de la population, et on ne devrait donc jamais faire de généralités à partir de nos observations « personnelles». Ca ne veut pas dire que les observations personnelles n’ont aucune valeur. Elles permettent de formuler des hypothèses… qu’on pourra ensuite tester avec la méthode scientifique.

(Ou vérifier en consultant -vive internet- ce qu’en disent les études qui les ont testé… jetez déjà un œil à la compilation de Tatoufaux, vous verrez sans doute, comme moi, quelques unes des « généralités» que vous croyiez belles et bien acquises tomber à l’eau…).

FigFaire de son cas une généralité
 

2-      Avoir assez d’individus

C’est la grande question que posent absolument tous les étudiants en science lors de leur premier stage de recherche, quand ils doivent mettre au point leur tout premier protocole expérimental : combien de « réplications » (=cas) doivent-ils prévoir (c’est-à-dire, si c’est une expérience sur les rats, par exemple, combien de rats)? A tous, on répond la même chose : « Ca dépend» ! Très frustrant, comme réponse, n’est ce pas ?

Et pourtant, là n’est pas le pire, il y a encore plus frustrant : le nombre d’individus qu’il faut, ça dépend des données elles-mêmes… donc on ne peut le mesurer qu’après l’expérience… quand on a les données. Du coup, on ne sait pas si on a prévu assez de réplications tant qu’on n’a pas terminé la recherche, et fait quelques calculs.

Alors, quels calculs ? De quoi « ça dépend» le nombre d’individus qu’il faut ? On l’a dit, pour avoir un échantillon représentatif, la meilleure méthode est de tirer les individus au hasard. Cependant, même en tirant les individus au hasard, il existe un risque, en étant très malchanceux, que l’échantillon obtenu soit très différent, dans sa composition, de la population sur laquelle on veut faire une généralité. Pour mieux comprendre, imaginons : j’ai une population d’allemand, et d’après un recensement, je sais que la moitié d’entre eux, très exactement, aime les fraises (j’admets, c’est une question bizarre pour un recensement, mais c’est pour l’exemple, il faut faire preuve d’ouverture d’esprit).

Je veux savoir si pour les français c’est pareil, si la moitié d’entre eux aime les fraises.

Je tire 10 français au hasard. Si effectivement comme pour les allemands, la moitié aime les fraises, j’ai de bonnes chances d’avoir environ la moitié de mes dix individus tirés au hasard qui aiment les fraises. Si j’en conclue que les français sont comme les allemands (ie que la moitié des français aiment les fraises), j’ai de la chance, j’ai bon.

Mais j’ai aussi une probabilité non nulle de ne tirer, par malchance, que des français qui aiment les fraises, ou que des français qui n’aiment pas les fraises. Et là, si je conclue que les français sont différents des allemands, pas de bol, j’ai faux.

Encore une frustration : même en ayant tout bien fait comme il faut pour avoir un échantillon représentatif (c’est-à-dire même en ayant utilisé le hasard), il y a un risque de tirer de mauvaises conclusions, un risque d’erreur.

L’énorme différence entre l’erreur et le biais (le biais c’est ce qu’on a vu en 1ere partie, faut suivre), c’est qu’avec le biais, on ne sait jamais à quel point on se trompe dans nos conclusions… et ça, c’est pas bon. L’erreur, par contre, on peut calculer sa probabilité. Par exemple, pour les français qui aiment ou non les fraises, on peut calculer la probabilité de tirer autant de français qui aiment les fraises alors qu’il y avait moitié-moitié dans la population… cette probabilité, c’est (environ) 1/210 (1/2 car on a une chance sur deux de tirer un individu qui aime les fraise à chaque tirage, et exposant 10 car on fait dix tirages), soit (environ) 0,001, soit 0,1%. En gros, il aurait été très improbable (moins d’une chance sur 100) de ne tirer que des individus qui aiment les fraises s’il y avait moitié-moitié. Si je ne tire que des individus qui aiment les fraises, je prends donc un risque plutôt faible en concluant qu’il n’y a pas moitié-moitié dans la population, donc que les français sont différents des allemands. Dans le cas présent, 10 individus étaient suffisants pour tirer une conclusion.

Je reformule, pour être sure que le message passe: on aura toujours un risque, à cause du hasard, de faire une fausse conclusion. Mais ce risque, on peut le calculer. S’il est faible, on pourra conclure, donc c’est qu’on avait prévu assez d’individus dans notre échantillon.

Si je n’avais tiré que 4 individus, et que tous aimaient les fraises, la probabilité aurait été de 1/24 soit environ 6%… c’est déjà un risque plus important, qu’on est pas forcément prêt à prendre… on fera alors une nouvelle étude, avec plus d’individus, pour avoir un risque plus « acceptable» avant de tirer une conclusion.

Lorsque l’on fait de son cas une généralité, on a bien souvent aucune idée du nombre d’individus qu’il aurait fallu pour conclure… donc du risque qu’on prend de se tromper. Encore un argument pour préférer la méthode scientifique à l’approche individuelle.

Publié originellement le 7 avr. 2015 et republié le 07 mars 2018 suite à migration du site.

Non classé

Stats #3 Le pourcentage qui fait peur

Suite à un fait divers (un délinquant à brûlé une voiture, et c’est une récidive, il avait déjà été arrêté et incarcéré pour le même motif auparavant), un journal publie un chiffre effarant : 66% des brûleurs de voiture sont des récidivistes. Ce chiffre suffit-il pour conclure que décidément, il ne faut que des peines « à vie» car « la récidive, ça suffit bon sang» ?

Voici ce à quoi pourraient ressembler les données au complet, qui ne sont jamais données dans les articles de ce genre.

tableau

Pour savoir si les récidivistes sont plus souvent impliqués dans les délits que les non récidivistes, 1000 personnes ont été suivies. Une partie d’entre elles avait un passé judiciaire (C=Casier), l’autre partie pas de passé judiciaire (NC= pas de casier). Au bout de 5 ans, on regarde si ces personnes ont oui ou non brulé une voiture pendant ces 5 ans.

On a bien 4 récidivistes et seulement 2 non récidivistes parmis les (6) bruleurs de voiture. 4/6*100 = 66%
Par contre, on voit aussi que parmis ceux qui avaient un casier, seulement 4/67, soit environ 6%, ont récidivé. 94% n’ont jamais récidivé.

Je vous laisse conclure quand à savoir si ceux qui ont brulé une voiture une fois méritent généralement une seconde chance ou devraient être emprisonnés à vie.

Edit 01/07/2019 : pour ceux qui auraient vu le lien vers ce blog apparaitre dans les commentaires suite à l’encart de l’ASTEC, j’ai supprimé pour l’instant, je prends un peu plus de temps pour compléter, voir j’envisage un article distinct.

Non classé

Stats #2 Généralisation du concept de généralité

Lorsqu’on a regardé si les allemands étaient plus grands que les français, on avait « des données» : un tableau avec la taille et la nationalité de plein de gens (des allemands et des français seulement par contre, car des chinois ça aurait un peu servi à rien pour savoir si les allemands étaient plus grands que les français, n’est-ce pas).

Avec ces jolies données, on pouvait faire deux groupes (celui des allemands d’un coté, et celui des français de l’autre), et pour chaque groupe, on pouvait faire une cloche dont le sommet représentait la moyenne de taille du groupe, et les bords représentaient les tailles minimum et maximum. On dessinait ces cloches en découpant les tailles possibles en classes, et en mettant pour chaque classe une barre dont la hauteur était égale au nombre de personne appartenant à cette classe (ok, lien pour rappel). Du coup, pour comparer les groupes, on pouvait comparer les cloches (et surtout, voir si elles étaient superposées).

Maintenant, imaginons qu’on se pose une autre question, à savoir : les français aiment-ils plus les fraises que les allemands ?

Je peux toujours faire deux groupes (les français d’un coté, et les allemands  de l’autre). Mais si la deuxième information que l’on a c’est si les personnes aiment les fraises ou pas (oui/ non). Donc, mes données ont cette tête là :

Individu Nationalité Aime les fraises
1 Français Oui
2 Francais Oui
3 Allemand Oui
4 Français Oui
5 Allemand Non
6 Allemand Oui
etc etc etc

Je vais avoir du mal à dessiner une cloche avec ces oui et ces non…

On va devoir utiliser une petite astuce pour retomber sur des chiffres que l’on puisse comparer. L’astuce, c’est bien sur de compter le nombre de oui chez les français, et le nombre de oui chez les allemands. J’ai 1121 français qui me répondent « oui, j’aime les fraises», et seulement 374 allemands. Puis-je conclure que les français aiment plus les fraises que les allemands ? Compter les oui suffit-il ? Attention, il y a un piège.

Non, cela ne suffit pas ! Imaginons que parmi mes 2000 personnes, j’ai 1500 français, et seulement 500 allemands ! Alors évidemment c’est logique que je n’ai pas 1121 allemands qui me répondent « oui, j’aime les fraises».

A aucun moment je n’ai dit ni vérifié que j’avais le même nombre de français et d’allemands dans mon tableau (même pas dans mon post #2, cherchez pas j’ai vérifié).

Donc ! Je dois aussi compter le nombre total d’individus dans les groupes que je compare. Ou alors le nombre de non. Je peux représenter les données dans un nouveau tableau :

Nationalité Aime les fraise=Oui Aime les fraise=Non TOTAL
Français 1121 379 1500
Allemand 374 126 500

Bon, du coup, ça fait beaucoup de chiffres… pour la taille, on pouvait comparer le sommet des cloches, qui correspondaient aux moyennes, et basta. Là, on doit comparer quoi avec quoi ? Il y a plusieurs manière de faire, mais en gros, ce qu’on veut savoir, c’est si en proportion, les français aiment plus les fraises que les allemands. On peut donc calculer les proportions de fraises-lovers dans chaque groupe :

Français : 1121 /  1500 * 100 = 74,7%

Cela signifie que 74,7% des français aiment les fraises d’après mes données.

Alors, et les allemands ? Roulement de tambour :

Allemands : 374 / 500 * 100 = 74,8%

Les deux pourcentages sont sensiblement identiques.

Conclusion : on dirait bien que les allemands aiment autant les fraises que les français !

De quoi créer des conflits lors des jumelages… les points communs n’ont pas que du bon.

Bon cet article est déjà long, et je n’ai pas terminé. Bah oui, je n’ai pas encore parlé du dernier cas possible de généralités. Le cas où on veut savoir si on a des grandes mains quand on a des grands pieds (plus rien à voir avec les allemands et les français…). Un cas où on aurait comme données un truc comme ça :

Individu Largeur de la main Longueur du pied
1

9,4

13,2

2

9

12,5

3

11

14,8

4

9,5

12,9

5

10,4

14

6

12,6

16,1

etc etc etc

Donc que des chiffres. Là, je peux pas faire deux groupes et les comparer. J’ai donc un nouveau problème. La manière typique de représenter ces données, c’est le nuage de points, c’est à dire ça :
PiedsMains1

Chaque point correspond à une personne (pour chaque personne, on a mesuré une main, et un pied). Là, on voit bien que lorsque la taille de la main est petite, le pied aussi est petit. Mais attention il y a des exceptions. Par exemple :

PiedsMains

Içi, la personne notée 1 à une main plus grande que la personne notée 2, mais un pied un peu plus petit. Les points pourraient être plus ‘dispersés’, et dans ce cas on aurait encore plus d’exceptions. Bref, içi, on a bien envie de dire juste avec le graphique qu’effectivement les gens qui ont de grandes mains ont en général de grands pieds. Il y a… corrélation !

Mais quand on fait des statistiques sérieusement, et surtout, quand les données sont plus dispersées, les graphiques ne suffisent pas (l’oeil humain n’est pas assez fiable), et on a alors besoin de calculer un coefficient de corrélation qui nous dira ce qu’il en est. Ce « coefficient» sera compris entre -1 et 1… et plus exactement, il sera très proche de zéro s’il n’y a pas de corrélation, proche de 1 s’il y a une corrélation positive (ça veut dire que lorsqu’une valeur augmente, l’autre aussi.. c’est ce qu’on a içi), et proche de -1 s’il y a une corrélation négative (exemple : nombre de bonbons dans un paquet de Haribo, et nombre de bonbons dans le ventre de la personne qui tient le paquet).

Voilà, j’ai fini, vous savez maintenant ce qu’est une généralité.

On récapitule?

On a vu trois cas de figure:

* Cas 1: Je cherche à comparer deux groupes, et il est possible de faire des cloches avec ce que je cherche à comparer (=les données que je veux comparer sont numériques). Dans ce cas je peux faire un graphique avec les cloches pour voir si elles se superposent. Je peux aussi calculer les moyennes et regarder si elles sont différentes.

* Cas 2: Je cherche à comparer deux groupes, et il n’est pas possible de faire des cloches avec ce que je cherche à comparer (=les données que je veux comparer ne sont pas numérique, ce sont aussi des groupes). Dans ce cas, je fais un tableau avec les effectifs. Avant de faire une généralité, je vérifie que j’ai pas loupé une information. Je peux calculer les proportions et regarder si elles sont différentes.

* Cas 3: Je ne cherche pas à comparer deux groupes (enfin si, ceux qui ont des grandes mains, et ceux qui ont des petites mains, si on veut, mais le contour de ces groupes est trop flou pour classer les gens dedans). Dans ce cas, je peux faire un nuage de points. Je peux aussi calculer la corrélation et voir si elle est positive, négative, ou nulle.

Voici grosso modo les 3 cas de figure où on fait le plus souvent des généralités (ie les X sont plus / sont moins ceci cela que les Y). C’est très simplifié, mais ça devrait déjà éclairer pas mal de choses dans les anecdotes du quotidien…

A bientôt pour le prochain épisode!

Prochain épisode : Quand peut-on ou ne peut-on pas faire de généralités?

Si je dis « moi, je connais untel qui devient tout rouge et gonflé si jamais il mange de la fraise.. donc la fraise c’est mauvais pour la santé », vous allez me répondre « nan, mais ton untel, il doit être allergique, c’est tout : ne fait pas de ton cas une généralité« .

Et vous auriez bien raison! Doit-on étudier tout le monde entier pour faire une généralité? Sinon, à partir de combien de cas peut-on faire une généralité? Quoi d’autre pourrait bien m’interdire de faire des généralités?

Pour la route…

Si vous sautillez d’impatience et ne pouvez plus tenir (non je ne me fait pas trop d’illusions, mais laissez moi rêver), un petit exercice pour la route. Suite à un fait divers (un délinquant à brûlé une voiture, et c’est une récidive, il avait déjà été arrêté et incarcéré pour le même motif auparavant), un journal publie un chiffre effarant : 66% des brûleurs de voiture sont des récidivistes. Ce chiffre suffit-il pour conclure que décidement, il ne faut que des peines « à vie» car « la récidive, ça suffit bon sang» ?

Réponse dans Stats #3 Feedback

Article originellement publié le 27 juil. 2014 et republié le 07 mars 2018 suite à migration du site.

Non classé

Stats #1 Qu’est-ce qu’une généralité?

Parfois, je dis une généralité.  Par exemple: « les allemands sont plus grands que les français ».
Et là, il y a toujours un gars ou une fille pour me sortir : ah mais non, moi je connais untel, il est allemand, et il est plus petit que moi, qui suis français-e. C’est à ce garçon ou cette fille qu’est dédicacé ce post.

notallmen
Je dédicace également ce post aux hommes qui répondent « quoi? pas moi » (#notallmen) aux généralités sur la masculinité toxique. Bisous 😉

Lorsque je vous dis : les allemands sont plus grands que les français, c’est une généralité. Je n’ai jamais vérifié que cette généralité était vraie.

Pour vérifier si c’est vrai, première question : si j’avais des ‘données’, a quoi ressembleraient-elle ?

Réponse : j’aurais une liste d’individus (disons 2000 individus pris au hasard, numérotés hein, je fais pas de fichage), et pour chaque individu j’aurais deux informations : sa nationalité, et sa taille.

Individu Nationalité Taille (cm)
1 Français 167
2 Francais 180
3 Allemand 185
4 Français 171
5 Allemand 170
6 Allemand 175
etc etc etc

Jusque là, ça va.

Alors, combien de français sont grands ? Combien d’allemands ? C’est quoi grand ? Je vais faire des groupes de taille (des ‘classes’) et compter le nombre de personnes dans chacun de ces groupes, « pour voir ».

FigOk

Ce qui saute aux yeux quand je représente le nombre de personnes dans chaque groupe, c’est cette forme de cloche que ça dessine. Si je calculais la moyenne, elle tomberait grosso modo au niveau du sommet de la cloche. Et ce que je vois, c’est que même si chaque cloche a son sommet, ce qui signifie qu’en moyenne, oui, les allemands sont plus grands que les français, et bien ça n’empêche pas qu’il y ait des allemands dans le groupe « 1m68-1m69 » et des français qui soient plus grands, par exemple dans le groupe « 1m79-1m80 » !

On parle de « recouvrement des données ». C’est lié au fait que dans les groupes que l’on compare, il y a de la variabilité: les données sont « étalées » dans la largeur (plus les données sont étalées, plus la cloche est large). Les exceptions à la règle « les allemands sont plus grands que les français » sont les individus qui se trouvent dans la zone de recouvrement. S’il n’y avait pas de recouvrement, on pourrait dire que « tous les allemands sont plus grands que les français ». Mais il y a recouvrement, donc on ne peut pas dire cela.

En réalité, au quotidien, lorsque l’on fait des statistiques et que l’on compare deux groupes de données, il y a toujours recouvrement.

C’est pour cela que moi, avec ce genre de données je pourrais dire : « Les allemands sont plus grands que les français». C’est une généralité, et elle n’implique (dans ma tête en tous cas) rien de plus que cela: « En moyenne, les allemands sont plus grands que les français». Ou plus passe-partout: « En général, les allemands sont plus grands que les français ». Lorsque je dis cela, je ne sous-entend en aucun cas que tous les allemands seraient plus grands que les français, car je sais bien qu’il y a toujours recouvrement.

Attention. Parfois, le recouvrement est tel qu’on ne voit plus deux cloches, mais seulement une. Et dans ce cas là, on ne peut plus faire de généralité…

NB: les données et conclusions présentés içi sont 100% factices. Les données ont été simulées dans un but pédagogique.

Article originellement publié le 27 juil. 2014 et republié le 07 mars 2018 suite à migration du site.