La statistique : l’impact d’un simple outil devenu argument en soi

« Pourcentage de chance de qualification », possession de balle, key pass, nombre de buts, interceptions, passes décisives ou simplement réussies, ballons récupérés, tirs cadrés ou arrêtés et bien d’autres. La statistique est devenue l’un des éléments d’analyse les plus courants dans le football moderne. De sa première utilisation jusqu’à celle qui en est faite aujourd’hui, un mouvement inexorable est à souligner : de strict outil d’analyse, la statistique tend à prendre son indépendance du match auquel elle se rapporte pour devenir un argument en soi. Cette évolution n’est pas souhaitable et ne doit pas faire perdre de vue que la statistique ne traduira jamais parfaitement la réalité du terrain.

La première question qu’il faut se poser est celle de la raison d’être des statistiques dans le football. Pourquoi noter, quantifier ? La réponse que l’on peut avancer semble évidente : pour tenter de traduire la réalité du terrain de la manière la plus objective et dépassionnée possible. Partant de ce principe, on peut se servir des statistiques pour analyser certains éléments d’une rencontre, appuyer ses arguments et dans une certaine mesure identifier des manques. L’analyse de cet article sera développée sur deux niveaux. Au niveau supérieur qui sera le premier, il s’agira de se concentrer sur une vision globale de l’utilisation de la statistique dans le football moderne. On y verra qu’elle tend à se détacher du match qu’elle essaie pourtant de traduire. Le second sera consacré à une réflexion sur la notion de statistique et sera donc plus précise, c’est à cette occasion que l’on développera l’idée que la statistique ne peut être que l’accessoire d’un match auquel elle se rapporte.

L'utilisation récurrente de la statistique aboutit à lui donner une existence propre

Puisque la statistique est comptabilisée à l’occasion d’un match, il semble normal qu’on parte du principe que son utilisation soit limitée à l’analyse de cette rencontre. Pourtant, l’utilisation de la statistique faite par les médias tend à déconnecter la statistique du match qu’elle tente de traduire. Étant donné que ces derniers sont limités par le temps, il est presque logique que peu à peu, leurs analyses ne soient plus seulement appuyées par des statistiques mais parfois basées sur elles. Ainsi, Geoffroy Garétier sur Canal Plus, autoproclamé « Footballogue », développe ses analyses presque exclusivement sur des chiffres. Dans un autre registre et sans comparaison, on peut désormais voir sur la Data Room sur Canal Plus une rubrique entièrement consacrée à la statistique. On commence à voir ce détachement entre le match et la statistique lorsqu’elle est utilisée de manière indépendante. Mais il devient encore plus flagrant lorsque les observateurs de football sont sur les réseaux sociaux. Tous ou presque suivent sur Twitter les fameux comptes Opta, WhoScored ou encore Squawka et reçoivent ainsi des statistiques sans lien avec aucun match, sans analyse, juste des nombres. On note les joueurs, on relaie les performances et renforce encore l’indépendance de la statistique dans l’analyse. La seconde raison est liée aux multiples jeux vidéos, d’aussi bonne facture soient-ils. Sur Football Manager ou les simulations FIFA/PES, le joueur est transformé en fiches statistiques. Il a « x » en frappe de balle, « y » en appels, défense, vitesse etc. On comprend alors assez bien comment l’observateur donne peu à peu une vie autonome aux statistiques puisqu’il prend l’habitude de voir des performances ou des niveaux de joueurs retranscrits directement par des nombres. On évalue la saison d’un joueur par rapport à ses statistiques au lieu de s’en servir pour appuyer une analyse basée sur ses matchs. Une expression est même née de ce phénomène : « soigner ses statistiques » ce qui prouve efficacement la prise d’indépendance de la statistique qui se transforme d’outil à argument indépendant. Pourquoi aurait-on besoin de soigner son nombre de buts ou de passes décisives si la statistique n’avait pas acquis ce statut d’argument autonome ? Simplement parce que l’utilisation des statistiques qui est faite par certains aboutit à en faire une fin en soi, on veut dès lors « avoir de bonnes stats ».

À la rigueur, on pourrait se dire que la statistique est plus qu’un simple un outil et qu’il est donc légitime de baser des analyses dessus et ne plus simplement les appuyer. Il faudrait alors partir du principe que la statistique est une fin en soi. C’est ce que l’on va faire et on verra, par l’absurde, que ce raisonnement n’est pas tenable. On s’attachera ensuite à montrer pourquoi.

Le principe selon lequel la statistique peut être utilisée de manière indépendante n’est pas tenable

Le « pourcentage de qualification » d’un club en Coupe d’Europe utilisé entre le match aller et retour est un bon exemple d’utilisation indépendante de la statistique. En 2013-2014, le PSG bat Chelsea 3-1 au Parc des Princes en match aller de quarts de finale de Champions League. La performance est de qualité, les supporters parisiens sont confiants. Après le match, les observateurs commencent à entendre dans les médias la chose suivante : « Après avoir gagné 3-1 la rencontrer aller à domicile, le PSG a 78% de chance de se qualifier pour les demi-finales ». Bon nombre de personnes savent que cette statistique n’a absolument aucun sens et d’ailleurs, il ne s’agit pas dans cet article de souligner un traitement de la statistique qui serait globalement défaillant, une partie significative l’est. Pour ceux que cette statistique ne choque pas, nulle offense. Le problème de ces fameux « 78% de chance » est double. D’abord le nom qu’on lui donne est impropre et ensuite et cela illustre tout le problème de la statistique indépendante, elle va rentrer dans l’inconscient collectif et insuffler une confiance illégitime. En réalité, ces 78% ne disent qu’une chose : que sur la totalité des équipes qui ont gagné leur match aller à domicile sur le score de 3-1, 78% se sont effectivement qualifiées pour le tour suivant à l’issue du match retour. D’abord elle ne dit absolument rien sur le déroulement de ce second match ni sur les équipes qui les ont disputés mais en plus, elle est comptabilisée après ce dernier. Comptabilisée après mais utilisée avant, la logique est assez contestable. Penser que cette statistique est un « pourcentage de chance » revient à établir un lien de causalité entre le match aller et le match retour. Comme si le fait qu’une équipe ait gagné 3-1 au match aller allait l’aider à avoir un total de buts supérieur à l’autre équipe à l’issue des deux matchs et donc à se qualifier. Avoir deux buts d’avance au match aller n’aide pas à garder cet avantage à l’issue du match retour. Ne pas prendre de but, si. Ce qui est sûr, c’est que 100% des équipes ayant gagné l’aller 3-1 à domicile, qui ont entendu parler de cette statistique et qui ont cru qu’elle était utile, ont perdu le match retour 2-0. Comme le PSG.

Un autre élément peut être avancé pour montrer en quoi la prise d’indépendance de la statistique est problématique. Ci-dessus, on voit une comparaison réalisée par Opta et WhoScored entre les saisons de Memphis Depay (nouvelle recrue de Manchester United) et Angel Di Maria. C’est le média anglais SkySport qui utilise ces statistiques avec ce tweet :« qu’implique l’arrivée de Depay pour Angel Di Maria : nous avons regardé les statistiques ». Pour montrer le problème analytique posée par ces statistiques utilisées seules, il faut déconstruire. Quel est le but de SkySport ici ? A priori, c’est de s’interroger sur la situation future de Di Maria sachant l’arrivée de Depay. Pour bâtir une analyse, on nous propose la comparaison des statistiques individuelles des deux joueurs. Après tout pourquoi pas. Le premier problème de ce procédé est qu’il part du principe que toute performance réalisée par Depay au PSV Eindhoven et Di Maria à Manchester United sont équivalentes. Si cela était le cas, il n’y aurait aucun problème. On pourrait se dire que globalement, Depay a réalisé une « meilleure » saison que Di Maria. N’importe quel observateur lisant cet article sait bien que cette hypothèse est complètement absurde, que l’on ne peut en aucun cas comparer L’Eredivise avec la Premier League, le PSV avec Manchester United où Di Maria arrive dans un projet de transition après le départ de Ferguson. Tout le monde sait cela, même la personne de SkySport qui a envoyé ce tweet. La question qu’il faut se poser et donc de savoir pourquoi cette comparaison a été faite si tout le monde est au courant de son inutilité. Mais cela n’était que le premier problème. Le second réside dans de la pure logique. En quoi est-ce que les statistiques passées de Di Maria et de Depay peuvent influer sur la situation future de l’Argentin au club ? La seule explication rationnelle serait de dire que SkySport pense que les statistiques sur une saison donnent une indication fiable du niveau du joueur et qu’elles seraient donc une fin en soi. Ainsi, en les comparant, on pourrait plus ou moins dire qui est « meilleur » et donc quelles seraient les statuts de Di Maria et de Depay dans le groupe dirigé par Van Gaal. Or tout le monde sait qu’intrinsèquement, Di Maria, certes auteur d’une saison médiocre, est finaliste de Coupe du Monde, Champion d’Espagne et vainqueur de la Ligue des Champions est « meilleur » que Depay qui doit encore prouver sa valeur au plus haut niveau européen. C’est dire alors que cette analyse confère un caractère objectif aux statistiques qui est pourtant en contradiction avec la réalité. Ces deux exemples illustrent bien que lorsqu’on utilise la statistique indépendamment de leur contexte, on développe des analyses bancales car se basant exclusivement sur ces dernières. Étant donné que l’on a montré que ces analyses n’ont que peu de sens, c’est donc que l’hypothèse de départ n’est pas tenable. La statistique ne peut donc être une fin en soi.

La statistique est une traduction imparfaite de la réalité du terrain et perd donc son sens lorsqu’elle est utilisée seule

À chaque fois qu’un chiffre est donné sans être l’accessoire du match, il est dénaturé. La raison à cela est simple et est liée à la nature de la statistique utilisée dans le football. Cette nature est d’essayer de traduire un phénomène entièrement subjectif qui est la performance sportive. Cette traduction bâtit un lien indissociable de principal et d’accessoire entre le match et la statistique qui sont donc tous les deux subjectifs. Il est très aisé d’illustrer cette hypothèse. Le débat est récurrent depuis la fin de l’ère Guardiola au Barça : une équipe peut avoir 70% de possession de balle sans gagner un match. Un tir cadré est toujours comptabilisé comme tel mais peut en vérité priver une équipe d’un résultat si le joueur a en fait raté une occasion énorme. Le pourcentage de passes réussies relève de la même subjectivité. Une passe vers l’avant ou vers son gardien ont-elles la même valeur ? Même raisonnement pour le pourcentage d’arrêts d’un gardien. Chaque statistique comptabilisée porte en elle l’imperfection de la traduction de la réalité du terrain. La liste des statistiques et leur subjectivité le montre bien, la statistique ne sera jamais objective et si on part du principe qu’elle l’est, on développe des analyses vides de sens. C’est dire l’évidence que de faire la liste précédente, mais pourtant la conclusion n’est pas tirée sur le rôle des statistiques. Parce que cette imperfection existe, les statistiques sont inséparables du match auquel elles se rapportent. Elles n’ont de sens que dans ce contexte unique qu’est la performance sportive. À chaque fois qu’on les utilise en les éloignant du match, on fragilise ce lien de principal et d’accessoire en oubliant cette imperfection. On remet alors en cause la légitimité de l’outil statistique en essayant d’en faire un argument propre, comme si le contexte ne comptait pas alors qu’il est sa raison d’être.

Ce constat bien absolu doit pour autant être nuancé et il ne s’agit surtout pas de dire que la statistique ne doit pas être utilisée. En vérité, la statistique est un formidable outil à condition qu’il soit proche de son contexte. De plus, chaque élément cité plus haut peut être précisé, peaufiné par d’autres statistiques. Ainsi on peut très bien comptabiliser les passes vers l’avant, une possession haute ou basse avec une action créée à la sortie ou non. Les key pass et autres through ball permettent une meilleure analyse. Mais il ne faut pas perdre de vue l’essentiel qui est et restera toujours que la statistique est subjective. On peut tenter de la rendre plus précise, mais croire qu’elle deviendra objective est une erreur. Ainsi, elle doit être manipulée avec précaution sous peine de la dénaturer complètement et de vider le football de son inexactitude qui le fonde pourtant. Il faut donc rebâtir ce lien de principal et d’accessoire entre le match et sa statistique ou alors accepter de donner moins de sens à une statistique utilisée indépendamment de tout contexte. La statistique permet d’agrémenter l’analyse d’un match, mais elle ne permet pas l’analyse d’un match à elle seule.

Pour terminer, il faut tout de même souligner l’existence d’une statistique complètement objective mais qui ne fait en vérité que compliquer le débat : c’est le but. Il en existe des mérités, beaux, laids, en contre ou attaque placée peu importe. Le but est l’essence du football et l’organisme qui le comptabilise s’appelle le tableau d’affichage. Certains diront qu’un beau but vaut mieux qu’un autre, d’autres non, c’est encore le débat entre la manière et le résultat dont il a déjà été question. Mais les Lois du Jeu en font le seul élément objectif du football par une fiction qui est le score. Aucune statistique n’est une fin en soi parce qu’elles sont toutes subjectives et qu’aucune ne permet d’obtenir directement la victoire. C’est ce qui distingue le nombre de buts de toutes les autres statistiques, il suffit d’en avoir mis plus que l’autre pour remporter le match.

Devillié

En préambule, je voudrais dire que j’avais apprécié votre commentaire dans l’after foot il y a quelques jours (débat sur la comparaison entre joueurs d’époques différentes) et je m’étais dit que j’allais visiter votre site dès que j’aurais un moment de libre.
Votre article est très bien écrit et il y a une vraie argumentation sur l’inutilité de la statistique dans le foot ou tout du moins l’usage qu’en font les « spécialistes/experts » de foot, c’est à dire sortir de son contexte les statistiques et baser son analyse là dessus ( vous expliquez qu’ils font ça parce qu’ils sont limités dans le temps, moi je dirais par manque de talent ) et je nuancerais même que les statistiques qui appuient les analyses ( qu’elles soient bonnes ou mauvaises ) ne sont pas toutes pertinentes.
Je me souviens lors d’un débat sur un match épouvantable de l’équipe de France (version Domenech en 2008 ou 2009) qu’un consultant avait dit que Toulalan avait fait un match énorme et avait dit tout fier de lui « la preuve 100% de passes réussies et x interceptions ».
Je me demandais si ses stats étaient vraies et j’avais décidé de vérifier ses stats en revoyant le match tellement Toulalan m’avait fait mauvaise impression sur ce match en question.
Elles étaient vraies mais ses passes étaient presque toutes latérales ou en arrière et il n’y avait aucune pression de l’adversaire. Concernant ses interceptions, elles étaient dû aux erreurs adverses ( il n’avait gratter aucun ballon dans les pieds ou n’avait couper aucune trajectoire ).
Tout ça pour vous dire que les statistiques sont parfois trompeuses. La statistique ne peut être qu’un élément d’outil à l’analyse, encore faut-il bien l’utiliser. Deux joueurs avec les mêmes statistiques peuvent faire des matchs complètement différents.
Le problème est que les analyses liées uniquement sur les statistiques sont relayés par les professionnels du foot ( Laurent Blanc a déjà dit qu’un attaquant est jugé sur son nombre de buts ) les experts ou les amateurs de foot qui pensent que tel attaquant est plus fort que tel attaquant parce qu’il a marqué plus de buts. Bien que le nombre de but soit important, pour moi ce n’est qu’un élément pour juger le niveau d’un attaquant ( il faut analyser le contexte à savoir si l’attaquant joue dans une équipe tournée vers l’offensive, si il a des bons passeurs, le niveau et la mentalité du championnat, etc…)
Bref, le dossier est l’un des plus intéressants que j’ai lu sur le foot.
PS : J’adore Toulalan et je le considère comme un très bon joueur. C’était le système de jeu de Domenech qui n’était pas le bon à l’époque, mettre deux milieux défensifs avec le même profil ( Toulalan et Lass Diarra ) contre des équipes largement inférieur à la France n’était pas l’idée du siècle pour produire du beau jeu et obtenir de bons résultats.

Thomas

En fait le problème ne vient pas tant de la statistique que de l’utilisation qui en est faite.
C’est un problème qui s’applique aussi en dehors du foot.
C’est un problème mathématique, un problème de société aussi. On voudrait réduire à des chiffres l’imprévisible, ‘sécuriser’ l’imprévu, éviter les ennuis et expliquer, de manière tangible et irréfutable un argument.

Le commentaire ci-dessus sur Toulalan est parfait à mes yeux.

L’utilisation de la statistique comme illustration d’un argument, peut relever du sophisme (Toulalan a 100% de passes réussies dans le dernier match, donc il a fait un match monstrueux), de l’analyse (Tiens, Toulalan a 100% de passes réussies ? Quel type de passe a-t-il effectué ? Comment est-ce possible qu’il n’en ait pas raté une ?), ou de la simple illustration d’un argument (Toulalan n’a pas fait un très bon match, regardez, 100% de ses passes sont pour son gardien ou un coéquipier en retrait. Il n’a pas vraiment servi le jeu)

Tout ça pour dire qu’à mon avis, le fait que nous nous appuyions sur les stats à ce point, qu’elles nous servent à tout expliquer à ce point, est dû tout simplement à notre propre incapacité à nous poser des questions, à ne pas accepter l’incertitude, ou vouloir des réponses immédiates à des questions qui nécessitent des analyses en profondeur.
Bien sûr il me faudrait une argumentation au moins aussi longue que votre article, aussi bien construite pour la développer complètement (en plus je suis au boulot donc ça ne serait pas très sérieux de continuer !), mais je suis sûr que vous comprenez mon point de vue 🙂

P.

Bien que je n’aie pas d’objection à formuler à la thèse principale de cet article, le passage sur les « chances de victoire » m’a un peu surpris. Je cite:
«Comptabilisée après mais utilisée avant, la logique est assez contestable. Penser que cette statistique est un ‘pourcentage de chance’ revient à établir un lien de causalité entre le match aller et le match retour. Comme si le fait qu’une équipe ait gagné 3-1 au match aller allait l’aider à avoir un total de buts supérieur à l’autre équipe à l’issue des deux matchs et donc à se qualifier. Avoir deux buts d’avance au match aller n’aide pas à garder cet avantage à l’issue du match retour.»

Il me semble qu’il y a là un contresens sur le rôle des statistiques et la notion de causalité. Mais peut-être ai-je mal compris; je m’explique donc.

L’idée centrale de mon objection est la suivante. Que la statistique soit «comptabilisée après mais utilisée avant» est tout à fait naturel: c’est la nature même des statistiques «inférentielles», où l’on s’appuie sur des événements passés pour (tenter de) *prédire* des événements futurs. La prédiction est, comme partout en science, une activité faillible (ex: météorologie pour prendre un cas courant de la vie quotidienne, et particulièrement complexe). La question centrale n’est pas de connaître la réponse avant de faire la prédiction, mais d’avoir les moyens d’assurer que le modèle employé est satisfaisant. C’est souvent à ce dernier stade que le bât blesse dans le cas des statistiques sportives (et ça ne se limite pas forcément aux seules statistiques sportives d’ailleurs), mais cela signifie en aucun cas qu’il y a une absurdité *de principe* à faire des inférences sur la base de statistiques.

En particulier, en aucun cas parler de probabilités ne revient à établir un lien de causalité entre le match aller et retour. (D’ailleurs je ne suis pas non plus d’accord avec la suite de l’extrait de l’article, car «le fait qu’une équipe ait gagné 3-1 au match aller» me semble bel et bien «l’aider à avoir un total de buts supérieur à l’autre équipe à l’issue des deux matchs et donc à se qualifier»… ou alors, autant ne jouer que le match retour! Mais je préfère me concentrer sur l’aspect causalité) Je prends un exemple qui sort du cadre des compétitions sportives. Considérons le lancer – considéré comme aléatoire – de deux dés non truqués à six faces. La probabilité d’obtenir une somme égale ou supérieure à 8 est de 15/36. Si, maintenant, je lance d’abord un seul dé et que j’en regarde le score avant de lancer le second dé, je peux me prononcer sur la probabilité d’obtenir une somme de 8 ou plus *sachant* le résultat du premier dé. Si, par exemple, le premier dé a donné un 3, je sais que seuls 5 et 6 sur le second dé me permettront d’obtenir 8 ou plus: c’est une probabilité de 1/3. Ce «sachant» renvoie au fait qu’on parle là d’une probabilité «conditionnelle». Il n’y a rien d’anormal à utiliser ce type de probabilités, et c’est là une notion très classique. Or, conditionnaliser la probabilité du résultat final au résultat du 1er dé ne revient *en aucun cas* à établir un lien de causalité entre les deux résultats des dés; au contraire, les lancers des deux dés sont considérés comme aléatoires et totalement indépendants. Cet exemple me semble en partie transposable au cas du match PSG-Chelsea, à cela près – et j’y viens – qu’il faut s’interroger sur la nature des probabilités employées, puisqu’on raisonne sur l’hypothèse de phénomènes aléatoires (ce qu’un match de foot *n’est pas*, mais un lancer de dés non plus, en toute rigueur).

L’un des problèmes de la statistique «chances de victoire» n’est pas tant le versant «statistique» en lui-même, mais le manque de recul sur la notion de «probabilité» qui est mobilisée sans grande réflexion. En effet, pourquoi parler de «chances» de victoire?
La réponse la plus simple consiste à dire que dans le modèle employé, les rencontres sont considérées comme des phénomènes aléatoires. Dans ce cas, on assimile la probabilité d’un événement (qualification de l’équipe A par exemple) comme la fréquence limite avec laquelle cet événement aurait lieu si l’on répète à l’infini un tirage (une rencontre aller/retour) *dans des conditions considérées comme identiques*: c’est une définition classique de la probabilité que l’on qualifie généralement de «fréquentiste». C’est le fameux «si on répétait cette rencontre 10 fois, l’équipe A gagnerait 9 fois» qui revient souvent lorsque l’équipe B a remporté la rencontre avec beaucoup de réussite. Notons que dire que l’événement est considéré comme aléatoire ne signifie pas que les issues sont équiprobables. Barcelone peut tout à fait (selon la conception de ce modèle) avoir 9 chances sur 10 (ou plus, peu importe) de battre le FC Copenhague; le modèle dit simplement qu’une fois cela statué, le hasard fait le reste.

Une fois qu’on dispose de cette notion de probabilité, il reste à savoir comment *évaluer* une probabilité – donc à faire une statistique «prédictive» – à partir des données empiriques. On partira d’un échantillon disponible d’événements *censé* (le mot est important) être représentatif de l’événement à venir (ici, ce sera typiquement l’échantillon des matchs de C1 ayant eu lieu dans ces mêmes conditions) et on assimilera la probabilité (la fréquence «théorique», en quelque sorte) avec la statistique (la fréquence effective mesurée au sein de l’échantillon à disposition). Plus la taille de l’échantillon est grand, plus on aura confiance dans le fait que la statistique et la probabilité sont proches. C’est un mode ordinaire d’«inférence statistique».
L’utilisation des probabilités dans un modèle statistique est ce qui permet de passer de la statistique descriptive (sur le *passé*: 75% des équipes *ont* fait ceci/cela……) à la *prédiction* (sur le *futur*: il y a 75% de chances qu’il se *passera* ceci……). On dira, pour décrire les choses un peu grossièrement, que les événements tendent à se dérouler dans le futur comme ils se sont déroulés dans le passé – et c’est là qu’on en revient à cette idée que la probabilité est «comptabilisée après mais utilisée avant» – s’ils se déroulent dans des conditions identiques (les «conditions de répétabilité»).

Le problème de ce modèle, c’est qu’il assimile très simplement «conditions identiques» avec «score et terrain (domicile/extérieur) identiques au match aller» alors que, de toute évidence, le niveau intrinsèque des équipes, le contexte, etc. influencent le résultat final (ce sont justement, puisqu’on en parle, des éléments de «cause» du résultat final). Loin d’établir des causalités inexistantes, le modèle fait donc tout le contraire: il supprime toute idée de causalité en réduisant le résultat du match à un processus aléatoire, en ne considérant comme seul et unique paramètre pertinent le score du match aller.

On est en fait là en présence d’un problème très classique de l’interprétation «fréquentiste» des probabilités. Je peux chercher à estimer quelle «chance» j’ai de vivre plus de 80 ans en m’appuyant sur les données de mortalité disponibles. Je prendrai par exemple celle de la France, car elles sont plus représentatives de mon cas. Mais n’étant pas fumeur, je souhaiterai peut-être affiner les données utilisées en excluant la mortalité des fumeurs. À moins que, ayant les cheveux longs, il ne faille uniquement m’appuyer sur la mortalité des personnes aux cheveux longs? On peut pousser ce problème jusqu’à l’absurde. Le problème étant que, si je souhaite affiner à l’extrême mon échantillon, je constaterai en fin de compte que seul mon propre état est représentatif de mon propre cas – je vide donc entièrement l’échantillon sur lequel baser mon calcul (alors que j’aurais justement aimé avoir l’échantillon le plus grand possible). Ce problème est bien connu, mais il ne signifie pas pour autant la fin des statistiques et des probabilités. On sait que les femmes vivent plus longtemps en moyenne; on a des statistiques à ce sujet; et il est vraisemblable que cela concerne mon propre cas même si cela ne *détermine* rien.

On en arrive donc à la conclusion que le défaut du modèle réside dans la grande quantité de paramètres qu’il élude pour ne se fier qu’à un seul, le score du match aller (incluant également le lieu, domicile ou extérieur). Dans le cas d’un match comme le PSG (3) – Chelsea (1) grâce auquel le PSG était censé avoir de grandes chances de qualifications, l’erreur commise est une erreur de simplification – on introduit, dans notre modèle, beaucoup moins d’informations que ce qu’on sait réellement sur le match à venir. (et c’est d’ailleurs parce qu’on introduit si peu d’informations qu’on peut se permettre, avec un peu trop de légèreté, de faire du hasard le principal voire le seul mécanisme du résultat final, mais je ne peux pas trop développer cela ici)

Cependant, dire qu’une part de hasard gouverne les résultats d’un match de foot ne me semble pas particulièrement choquant. Dire que le résultat de l’ensemble des matchs aller / retour n’est pas connu avec certitude, mais que le résultat obtenu à l’aller par le PSG lui donne un avantage que l’on cherche à quantifier par des probabilités (selon un modèle largement perfectible) ne l’est pas non plus. Chercher à donner un cadre à ces probabilités sur la base de certaines hypothèses de travail qui permettent de proposer des prédictions, ce n’est qu’emprunter au mode de fonctionnement de l’activité scientifique (qui repose de façon essentielle sur l’idéalisation et l’approximation).

Ma conclusion est donc la suivante. 1) Contrairement à ce qu’affirme l’article, j’estime que «penser que cette statistique est un ‘pourcentage de chance’» ne revient *pas* à établir un lien de causalité entre le match aller et le match retour. 2) Pour autant, il existe très vraisemblablement des liens de causalité entre le résultat d’un match aller et le résultat du match retour (que la statistique précédente, donc, ne prend justement *pas* en compte). En effet, si le PSG a perdu en 2014, c’est en grande partie en raison de sa frilosité, programmée sciemment par Laurent Blanc *à cause* de l’avance acquise au match aller… 3) Ce n’est donc pas le principe de la «probabilité de victoire» que je remettrais en cause mais plutôt son application pratique, trop limitée et trop imparfaite au vu de la façon dont sont gérées les données à disposition. J’aurais plus tendance à me fier aux cotes des sites de paris sportifs, en ce qu’elles sont programmées pour correspondre au mieux (mais imparfaitement) avec des «probabilités» afin de maximiser les gains des bookmakers.

Bien évidemment, la façon dont les médias sportifs s’emparent de ce genre de statistiques est très contestable; ce n’est pas ce point que je voulais discuter ici, mais un aspect bien précis du développement proposé dans cet article.

Une Théorie du Football

Merci beaucoup pour ce long commentaire, P. Je ne suis pas spécialiste des probabilités, j’ai simplement quelques connaissances des 3 modèles de probabilités (fréquentistes, en fonction du nombre d’issues et subjective — je ne connais pas les termes exacts, mais je crois que vous verrez de quoi je parle).
Toutes vos précisions ne sont pas incompatibles avec mon discours qui, j’en conviens volontiers, manque de précision et laisse entrevoir un contresens possible, mais pas avéré. Par principe, appliquer le fréquentisme à un match de football me dérange, mais je peux comprendre la nécessité pour certains d’établir ces statistiques.

Vous savez, le but de ces articles est justement de faire remonter le débat aux considérations principales, aux fondements de la réflexion qui font raisonner — très imparfaitement — les observateurs du football. Si ma présentation est branlante comme ma connaissance des statistiques, vous l’avez très bien complétée. Il suffit qu’un lecteur lise l’article et votre commentaire pour ne plus jamais voir la statistique dans un match de football de la même manière et c’est tout ce qui compte 🙂

Finalement, mon imprécision dans l’article est la bienvenue puisqu’elle a engendré votre commentaire et donc un gain de précision pour tous ceux qui voudront bien lire cette page dans sa totalité ! C’est tout l’objectif que je me suis donné en rédigeant chacun de ces articles.

P.

Merci de votre réponse – et d’avoir lu 🙂

Je précise que mon explication ne se veut absolument pas un plaidoyer en faveur des statistiques fréquentistes au détriment des autres interprétations (je n’ai pas particulièrement de position dans ce débat de spécialistes).

Mentions légales