« Predict the president » est la dernière tentative en date pour prévoir le duel du second tour de la présidentielle grâce au big data. Ses résultats voient François Fillon affronter Marine Le Pen. Mais cette méthode soulève nombre de questions.
Et si c’était Fillon-Le Pen au deuxième tour de l’élection présidentielle ? Ce duel des droites ne paraît plus aussi incongru aux sondeurs qu’à l’époque où le « Penelopegate » a éclaté, semblant enterrer l’avenir politique de François Fillon. Une nouvelle analyse, conduite par des étudiants en master spécialisé big data de l’école d’ingénieurs Télécom ParisTech, va dans ce sens : exit Emmanuel Macron, le favori actuel des sondages.
Le big data — l’analyse algorithmique d’un grand nombre de données — validerait donc la stratégie du « tenir contre vents, marées et mise en examen » du candidat des Républicains. Les conclusions du projet « Predict the President » de Télécom ParisTech, publiées mardi 18 avril, rejoignent celles d’autres « instituts » comme la firme canadienne Filteris ou l’application participative Gov qui voient tous François Fillon passer le premier tour. Toutes ces prédictions ont un point commun : la prise en compte du « bruit médiatique », c’est-à-dire l’analyse de la popularité sur les réseaux sociaux.
Mais les étudiants de Télécom ParisTech ont ajouté leur touche personnelle. En plus des réseaux sociaux, pour être au plus près des électeurs, leur algorithme s’appuie un vaste océan de données publiques au niveau départemental, qui offre plus de matière exploitable que le niveau communal : taux de chômage, couleur politique du président du conseil départemental, densité de population, historique des votes depuis 1981…
L’algorithme s’appuie aussi sur les sondages tant honnis depuis la victoire de Donald Trump à la présidentielle américaine. « Les sondages, qui ont leur biais, restent une mine d’or d’informations, et l’indication la plus directe possible des intentions de vote », justifie Davy Bensoussan, interrogé par France 24.
Résultat de leur course : Marine Le Pen remporterait le plus grand nombre de départements. Et François Fillon, sur la foi du « bruit médiatique », parvient à éliminer Emmanuel Macron et Jean-Luc Mélenchon. Les créateurs de « Predict the President » ont confiance dans leur algorithme. Appliqué à l’élection présidentielle de 2012, « nous avons trouvé une marge d’erreur de plus ou moins 2,5 % [par rapport aux résultats] », expliquent-ils.
Mais 2012 n’est pas 2017. La campagne actuelle est plus ouverte que jamais ; le big data peut-il vraiment mettre de l’ordre dans tout ça ? La méthode utilisée suscite nombre de questions auxquelles deux des étudiants de Télécom ParisTech ont tenté de répondre.