L’excès de confiance tue: la paille et la poutre.

« Kids have to be warn that there is bullshit coming down the road. That’s the biggest thing you can do for kids, tell them what life in this country is about. It’s about a whole lot of bullshit that needs to be detected and avoided. »
Georges Carlin – Juste après « Question everything […] »

Suite aux premiers retours sur ce texte, ce dernier a déjà été partiellement remanié et j’ai ajouté plusieurs notes en bas de page (en réalité indicées dans le texte, cliquez dessus pour les lire, merci WordPress) qui valent la peine d’être lues. Merci à tous ceux qui ont commenté et aidé à son amélioration.

Je suis plusieurs vulgarisateurs français, parce que je suis scientifique, parce que la vulgarisation et l’enseignement m’intéressent et parce que je suis curieux. J’ai mes préférés, avec qui je ne suis parfois pas d’accord, ceux qui m’indiffèrent et ceux que je n’aime pas. Comme tout le monde en fait. Et je préfère mettre les choses au point, je n’aime pas l’approche de Science4All (Lê Nguyên Hoang de son nom). Je viens de voir sa dernière vidéo qui m’a particulièrement agacé. Et comme c’est mon blog, je tenais à dire pourquoi.

Avec les évènements récents (du COVID-19, nous sommes début 2020), j’ai le sentiment qu’il se rend compte que le mode de pensée bayésien qu’il promeut n’empêche pas de dire de grosses bêtises cependant je ne le vois pas en tirer beaucoup de conclusions efficaces¹ Pour résumer le propos de cette dernière vidéo, il prend une estimation de la part d’experts en épidémiologie des cas de COVID-19 aux états-unis à un instant t et montre que l’essentiel de ce panel se trompait sur l’instant t+dt² La belle affaire.
Il en conclut que les experts comprennent mal en majorité les modélisations exponentielles, ce qui l’inquiète beaucoup (le pauvre), et extrapole sur la propension des gens à croire les avis plus ou moins tranchés en appelant à la modestie épistémique (un bon point de la vidéo mais il devrait commencer par s’écouter un peu³.).

J’aimerais mentionner ici certains points qui m’ont fait tiquer dans cette vidéo. Ces points sont plus ou moins indépendants et seront organisés dans les différentes parties du billet.

1. L’avis de Lê

La première partie de la vidéo (après une introduction dispensable) est une présentation des modèles exponentiels et du genre de calcul que l’on peut en tirer, notamment de la sensibilité de leur paramètres. Pourquoi pas, bonne idée même. Cependant, une des conclusions (tout à fait juste et à propos) de cette partie est qu’une faible variation des paramètres a de gros effets sur les résultats. Ceci est mis en regard avec le genre de barre d’erreur que Lê sort de son modèle (avec une distribution log-normale). Comme il le dit lui même, les distributions de barre d’erreur que donnent les experts ne collent pas avec celle qu’il a obtenue. Comme je l’ai dit, une de ses conclusions est que les experts en épidémiologie ne comprennent pas les modèles exponentiels et quelles barres d’erreurs attribuer aux valeurs qu’ils sortent. Ma question est alors de se demander si cette conclusion est raisonnable. En effet il est facile de refaire la bataille à posteriori, de modéliser (et non pas de prévoir) les données avec une estimation raisonnable des paramètres à entrer dans son modèle. Mais plusieurs inconnues ne sont pas prises en compte et peu (voir pas) mentionnées par Lê. Quels modèles ont utilisé les experts? Combien de paramètres ont-ils pris en compte et quels sont leurs effets? Que représentent ces paramètres? Dans quelle mesure ont-ils été justes? Ont-ils simplement utilisé un modèle (correctement) ou donné une réponse au doigt mouillé à une question de journaliste dont ils ne devaient pas avoir grand chose à faire? Et la liste pourrait-être longue. Je n’ai pas vraiment de réponses à ces questions mais elles montrent le genre d’interrogations raisonnables qu’on (à savoir moi) est en droit de se poser ⁴. Et je n’ai fait des remarques que sur les réponses des experts critiqués, mais une question se pose aussi ouvertement: que vaut le modèle de Lê⁵? Il n’est pas plus épidémiologiste que moi donc je laisserai aussi cette question ouverte. Je sais bien que la propagation du virus est effectivement initialement exponentielle (en l’absence de mesure barrière) mais je sais aussi qu’il s’agit d’un modèle simpliste et je me garderai bien de m’en servir pour critiquer l’avis d’experts. Il s’agit plus d’un outil de vulgarisation que d’un outil de travail, à mon sens, et cette vidéo vient, pour moi, d’un énième excès de confiance épistémique.

2. L’avis des experts

J’ai envie de parler un peu de modélisation et même de théorie physique. Dans son livre « Mécanique quantique: Une approche philosophique » Michel Bitbol commence le premier chapitre en disant verbatim « En dépit des nuances et précautions d’usage, les sciences de la nature se voient encore fréquemment assigner la tâche d’expliquer les phénomènes. La mécanique quantique apparaît dans cette perspective comme une théorie démissionnaire, ayant renoncé à l’ambition de fournir des explications pour s’en tenir à la seule fonction prédictive ». Boum, emballé c’est pesé⁶, la méca Q n’explique rien mais à un fort pouvoir prédictif. Mais la rejette t’on pour autant? Non car elle ne cherche pas de fondations explicative aux phénomènes et à son pouvoir prédictif. Ce n’est pas le cas des modèles épidémiologiques qui cherchent à représenter le réel et ensuite à en tirer des prédiction. Les fondations épistémologiques sont très différentes. Cette phrase permet de montrer le double rôle des théories scientifiques. Un rôle explicatif et un rôle prédictif. Les anglais font une distinction entre prediction et forecasting et cette distinction (qui sera grossière dans la suite) est à propos ici. La prediction consiste à avoir un modèle qui, étant donné un ensemble de données à un instant t donne un résultat à t+dt. Ce résultat est dépendant des données mais aussi du modèle et des phénomènes sous-jacents pris en compte par ce dernier. L’erreur sur la prédiction viendra plus des erreurs sur les données et sur les paramètres que sur le modèle lui même, on a une correspondance entre les données en entrée et le résultat. C’est le cas pour la mécanique quantique et le modèle de Lê. Le forecasting désigne une démarche qui prend en compte les erreurs potentiels et les incertitudes du (des) modèles pour essayer de donner une valeur réaliste d’une quantité étant données les données à disposition. C’est le travail des épidémiologistes. La distinction subtile entre ces termes passe à la trappe en français courant mais comme exemple, la prediction désigne le résultat d’un calcul mécanique (quantique ou non) quand le forecasting désignera l’avis du bulletin météo (weather forecast en anglais)fondé sur la moyenne d’un ensemble de modèles différents. Les experts dont Lê commente les réponses étaient dans le forecasting quand Lê a une démarche plus proche de la prediction (a posteriori)⁷. En effet, de vrais modèles de propagation épidémiologique ne se contentent pas du simple modèle exponentiel (juste, en l’absence de mesures) sur lequel on tourne les boutons des facteurs, mais prennent sans doute (je l’espère) des mesures de confinement ou de santé publiques en compte. Une des remarques qu’à faites Lê à la fin de sa vidéo est que « Si les politiques ont écouté ces gens là tout s’expliquent, ils étaient trop optimistes dans leur modèles » (grosso modo). On peut prendre le problème à l’envers, peut être que ces experts (à part 3 d’entre eux) ont été trop optimistes quand au fait d’être écoutés et en ont tenu compte dans leurs paramètres. Quand on voit la qualité de la gestion par le gouvernement français ou la gestion budgétaire formidable de l’administration Trump, on est plutôt en droit de se demander si les experts ont vraiment une voix quant à l’organisation de la réponse à la crise. On est cependant vraiment en droit de croire que leurs modèles de forecasting ont un pouvoir explicatif plus important que celui de Lê, qui est dans un cas patent de surmodélisation⁸ des données pour coller à son propos. et que cela peut aussi expliquer leur énorme erreur. Finalement, en l’absence de plus d’informations, on ne peut pas conclure sur la qualité des experts en question, sur leur compréhension de tel ou tel modèle ou sur leur impact sur les politique de santé, encore moins à partir d’un simple graphe venant d’un simple tweet sur un panel de 18 experts. Je ne dis pas que ce dernier n’est pas le début d’une piste de réflexion, mais cette dernière doit prendre du temps et tenir compte d’un maximum d’éléments qui ne tiennent pas dans une vidéo de vulgarisation de 22mn.

3. Extrapoler pour mal conclure

Les experts se plantent, Lê se plante, je me plante, tout le monde se plante. Mais ça n’a rien de nouveau. Une lecture passionnante sur le sujet que je ne peux que recommander (et où j’ai appris notamment cette distinction prediction/forecasting) est le bouquin de Nate Silver « The Signal and the Noise: The art and the science of prediction« ⁹. Dans ce livre, Silver illustre pourquoi les experts peuvent se planter grave avec divers exemple, en rentrant dans les détails, en interviewant des professionnels hors de son champ de prédiction et en retraçant l’histoire d’erreurs qui parfois ont coûté des vies, des carrières, fait scandale etc (du baseball aux tremblements de terre en passant par la crise des subprimes ou les modèles climatiques). Une de ses conclusions qu’il a en commun avec Lê, les experts se trompent… souvent. Mais pas pour les mêmes raisons que les partisans du modèle du doigt mouillé. Pas pour les mêmes raisons que le « hooligan » épistémique qui défend bec et ongle ses idées (quoique certains chercheurs peuvent faire du « hooliganisme »¹⁰ pour défendre leur modèle). Les sources d’erreur dans les modèles prédictifs sont nombreuses et mettre sur le même plan épistémique la remise en question de l’avis de professionnels de la prédiction statistique et le débat à coup d’argument (sur internet essentiellement) se reposant sur ces avis n’est pas raisonnable car on est en droit d’attendre des experts un certain regard critique sur les modèles et leur prédiction (regard offert par Silver) même rétrospectif¹¹. Il aurait été intéressant de prendre contact avec eux pour leur demander leur avis sur leur erreur ou comparer les différences avec les 3 experts qui ont eu raison. Cependant ce que fait Lê dans sa conclusion, et ce que je trouve grave, c’est une formulation d’invitation à la remise en question systématique des avis tranchés, notamment des avis d’experts (là où Silver invite à penser de manière probabiliste mais avec plus de mesure à la fin de son livre), en se fondant sur une unique erreur récente (où une série d’erreur), sur son expérience de bayesianiste qui s’est aussi trompé et sur le seule fondement que ces avis sont tranchés (sans s’attarder aux arguments sous-jacents donc). Sur une erreur profonde d’attribution de sa part, son raisonnement qui en découle et sans explication des sources potentielles d’erreur des experts en question (Mauvais modèles? Mauvais paramètres?), Lê donne du grain à moudre à tous ceux et celles qui remettent en question les avis d’experts sans méthode¹². Lê oublie, en bon bayesien, que la remise en question doit se peser elle-même et, en oubliant de donner des raisons potentielles d’erreur, il ne fait effectivement (à mon sens) que saper la confiance que l’on peut avoir dans les professionnels de santé, en tout cas les épidémiologistes, dont nous avons besoin actuellement.

Puisqu’il faut bien conclure

Ce billet est déjà trop long mais je peux résumer mes principaux griefs en quelques points pour conclure (peut être de manière plus élaborée plus tard):

Lê oppose une modélisation à posteriori sans fondation explicative ou véritablement phénoménologique à une estimation à priori de la part d’épidémiologistes professionnels. On peut penser que ces derniers avaient de bonnes raisons de donner les réponses qu’ils ont données. La comparaison entre son modèle à posteriori et les (probables) modèles à priori ne vaut rien.
Les sources d’erreur des experts sont nombreuses et les exemples ne manquent pas, dont certains (exemples) tout aussi graves que celui mis en avant. Ces sources d’erreur ne sont jamais mentionnées et sont globalement résumées à une erreur d’attribution sans fondement (les experts ne comprendraient pas leur modèles). Sans rentrer dans plus de détails, la critique et la conclusion sont sans fondements.
En prenant cet exemple pour défendre son appel à une remise en question des « avis tranchés », Lê donne un mauvais exemple de remise en question d’avis d’expert qui peut saper le crédit que l’on peut accorder aux experts quand ils en ont effectivement. Ce discours est contre productif quant à la qualité des débats dans le sens où il justifie la remise en questions de points de vues fondés sur des données et des modèles solides sans remise en question ou mise en perspective adaptée, de ces données et de ces modèles. Il donne un exemple de remise en question fondé exclusivement sur la forme et des sophismes et il s’agit là d’une démarche proprement anti-scientifique.

Il montre ici qu’il fait une fois encore preuve d’un excès de confiance magistral, quand il avoue lui même en avoir été victime. Je trouve donc le titre de la vidéo d’autant plus ironique.

EDIT: Quitte à le citer voici un avis de Nate Silver sur cette question (du site duquel provient en fait le sondage, j’écoute les vidéos, je lis rarement les textes en insertion, j’avais pas venu que ça venait de chez lui mais j’aurais dû m’en douter): https://fivethirtyeight.com/features/coronavirus-case-counts-are-meaningless/

Sans surprise, la modélisation de la propagation du virus est très compliquée et les experts débattent. Par ailleurs le nombre de cas détectés à un instant donné dépend de tellement de facteurs qu’à un instant t ce n’est pas une donnée particulièrement pertinente.

1
À titre d’exemple, sa réaction à ses erreurs passées sur les estimations de la propagation du virus est plus proche du regret de l’erreur que de sa prise en compte. En effet, au lieu d’admettre qu’il pouvait tout à fait se planter, et c’est le propre d’une estimation statistique, de pouvoir être fausse, sa réaction consiste à essayer d’éliminer rétrospectivement l’erreur. Avoir tort devient une faute morale impardonnable pour lui et l’erreur doit être éliminée… Par plus de bayesianisme. Hors, la formule bayesienne par sa nature intrinsèquement probabiliste n’élimine pas l’erreur. Or soutenir le modèle le plus statistiquement probable (parmi un nombre fini de modèles et avec un nombre fini de données) ne garanti pas d’avoir toujours raison. Sa démarche et sa réaction à l’erreur sont donc assez surprenantes.
2
Je ne l’ai pas noté en première écriture mais on m’a fait remarquer que 18 épidémiologistes est un échantillon ridicule à l’échelle des états-unis. C’est vrai. L’échantillon est d’ailleurs biaisé puisqu’ils s’agit uniquement de ceux qui ont répondu à l’enquête de FiveThiryeight et la conclusion que Lê en tire est d’ailleurs étendue à l’ensemble des experts en épidémiologie. Je le sous-entendais dans le texte. Mais un tel manque de rigueur fait froid dans le dos de la part d’un mathématicien
3
On m’a fait remarquer que sa démarche relève plus de l’humilité du saint prophète n’amenant que la parole des mathématiques sacrées aux voies impénétrables et aux résultats sans failles que de la modestie. Son rapport à l’erreur va d’ailleurs dans ce sens. Je pense que le terme de modestie s’applique toujours pour son auditorat mais son cas mérite effectivement réflexion
4
Lê mentionne lui même en insert dans sa vidéo (un texte de 6 ou 7 lignes qui apparaît une demi seconde) que les conditions du sondage ne sont pas claires, ce qui rend caduque ses conclusions. Dommage de ne pas le préciser à l’oral… non?
5
À titre d’exemple, les modèles épidémiologiques utilisent plus généralement des fonctions logistiques qui peuvent admettre des valeurs de plateau. Si le début de la courbe peut être exponentiel (et c’est déjà une hypothèse que de dire combien de temps elle le restera), les modèles prennent en compte la stabilisation et la décroissance des populations de malade, ce que ne fait pas apparemment pas le modèle de Lê. L’introduction de ces paramètres et de leur variabilité augmente considérablement les réponses pertinentes (ou défendables) que l’on peut donner au sondage de Fivethirtyeight.
6
J’ai passé une semaine à me remettre de cette phrase. Aujourd’hui encore elle m’attriste beaucoup. J’y reviendrai un jour. N’achetez pas ce livre si vous n’êtes pas solidement accroché, il est accessoirement extrêmement dur a lire.
7
On pourrait imaginer des chercheurs essayant de prédire le comportement d’un boulet de canon en l’absence de théorie physique de la mécanique. Là où les scientifique auraient eu une démarche explicative en essayant de calculer la trajectoire d’un boulet de canon étant donné son angle, Lê aurait regardé où le boulet est tombé et dit que « Pourtant c’est facile, si on met telle quantité de poudre, et qu’on incline le canon de tant, le boulet tombe à tel endroit. Donc les chercheurs ne comprennent rien à la mécanique ». Dans la réalité c’est plus compliqué mais l’analogie souligne d’autant plus le ridicule de la démarche.
8
overfitting, je viens de pondre ma traduction
9
Bien plus fourni, raisonnable et profond que ce que Lê a pondu sur le sujet (désolé si tu lis cette note mais c’est ce que je pense) mais malheureusement pas traduit à ma connaissance. Il y aborde déjà (en 2012) la question du Big data et des effets des modèles prédictifs sur l’économie et la politique avec beaucoup de pincettes et surtout, en tant que professionnel de la prédiction statistique. Et ça c’est très important.
10
J’emploie le terme de hooligan car il est dans le vocabulaire de Lê mais ce terme, qui me faisait déjà grincer des dents, est loin d’être neutre. Il porte une connotation politique et sociale très forte et peut renvoyer à des associations non-neutres politiquement (certains groupe d’ultras sont fortement politisés). En plus d’attribuer une forme de violence immodérée et injustifiée aux porteurs de certaines idées, il renvoie à une image stigmatisante essentiellement associée au prolétariat. On est dans les stratagèmes 8, 12, 27 et 30 de Schopenhauer (énerver l’adversaire et choisir des métaphores favorables) en même temps, auxquels on pourrait ajouter le déshonneur et le discrédit par association. Beau score. Je voulais juste noter que le soutien immodéré de certaines positions est parfois justifié et qu’il se retrouve même chez certaines personnes expertes et informées. L’attaque sur la forme n’est pas un argument et associer ce genre de comportement au hooliganisme est une forme de contrôle du ton (tone policing).
11
On m’a fait remarquer que les rationalités sont toutes les deux critiquables, ce avec quoi je suis d’accord. Mais les critiques doivent s’attarder sur les fondations de ces rationalités (leurs arguments) qui ont des niveaux de sérieux tout à fait différents!
12
On notera le sophisme post-hoc, il y a eu une crise, les experts se sont trompés juste avant, donc la crise a eu lieu parce que les experts se sont trompés. Et en plus ils sont bête et ne comprennent pas les maths.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Germain Clavier sur Fedi trucs3 juillet 2023
Bonjour et merci. Je suis content que ça serve. Pour votre question, l'auteur (ou autrice je ne sais pas) du…
la debutante sur Fedi trucs3 juillet 2023
Merci d'avoir fait tout ce boulot de traduction ! Moi je cherche à savoir comment effacer mes pouets tous les…