Tour de France voorspelling op basis van data

De Tour de France staat op het punt van beginnen. Vaak betekent dat er ook op kantoor/werk weer Tour poules worden georganiseerd. Maar hoe vul je zo’n poule nou eigenlijk in? Als data consultant bij Infotopics heb ik, Wouter Karsten, heb een analyse gedaan met behulp van openbare data en Alteryx om te kijken hoe je het beste de Tour de France kunt voorspellen. In mijn blog neem ik je mee met de verschillende stappen die ik gezet heb om tot een voorspelling te komen van de uitslag van de Tour de France 2023.

Wielren data

Over wielrennen en wielrenners is er op internet veel data beschikbaar op sites zoals ProCyclingStats. Maar ook het  Nederlandse WielerOrakel.nl heeft een eigen database met wielrenner data. Deze data kan als een mooie basis dienen bij het voorspellen van je Tour poule.

Wanneer je meedoet met een Tour poule is het altijd goed om de spelregels te checken hoe je binnen deze poule punten scoort (dit kan per poule namelijk behoorlijk verschillen). Verder is het wijs om vervolgens het parcours en de type etappes (vlak, heuvel, berg, tijdrit) te checken. Dit is namelijk in sterke mate afhankelijk van hoeveel verschillende type renners je moet selecteren.

In mijn analyse ben ik uitgegaan van de Renners database van WielerOrakel. In deze database vind je alle renners en hoe goed hun skills zijn op verschillende onderdelen (Algemeen Klassement, Sprinten, Heuvels, Berg etc.). Het meest interessante veld is [AVG] dit geeft aan wat de “gemiddelde sterkte” is van de betreffende renner (of wel hoe goed een renner in vorm is).

Echter staan in deze database alle renners opgenomen. Je kunt niet filteren op wie er wel of niet meedoen met de Tour de France. Dit is waar Alteryx om de hoek komt kijken.

Tour Poule en Alteryx

Op WielerFlits.nl heb ik de startlijst van renners die meedoen aan de Tour de France opgehaald. Daarnaast heb ik de 500 renners die het best in vorm zijn uit de WielerOrakel database gehaald. In Alteryx heb ik de data opgeschoond, zodat ik beide tabellen op het veld [Naam] aan elkaar kan joinen.

Starterslijst voor voorspelling Tour de France

De renners uit de WielerOrakel database die niet voorkomen in de startlijst kunnen niet gejoind worden op het veld [Naam]. Deze rijen vallen er dus uit en komen niet voor in de nieuw gecreëerde tabel. Ik gebruik hiervoor de Join tool als een filter, zodat ik alleen data overhoud van renners die daadwerkelijk deelnemen aan de Tour de France 2023. In bovenstaande flow zie je dat 157 renners meegenomen worden in mijn analyse.

Na deze stap sorteer ik de gehele tabel op het veld [AVG], zodat de tabel gesorteerd staat op de renners die het meest in vorm zijn:

Aangepaste starterslijst voor voorspelling van de Tour de France

Nadat ik op vorm heb gesorteerd heb ik op 4 skills gesorteerd namelijk:

  • [GC] (Algemeen Klassement)
  • [SPR] (Sprinten)
  • [MT] (Berg)
  • [OR] (Eendagswedstrijden)

In de 4 browse tools is per flow een tabel zichtbaar die eerst gesorteerd is op [AVG] en vervolgens op de betreffende skills. Dit geeft inzicht in welke renner het best in vorm is en daarnaast de hoogste score heeft op de betreffende skill.

Resultaten

Tour de France Top 15 Algemeen Klassement:

Top 15 algemeen klassement tour de france

Tour de France Top 10 Sprint:

Top 10 sprint Tour de France

Tour de France Top 10 Berg:

Top 10 berg Tour de France

Tour de France Top 10 Eendagswedstrijden:

Top 10 eendagswedstrijden Tour de France

Het perfecte Tour de France team

Een goed team bestaat vaak voor het grootste deel uit klassementsrenners, een aantal sprinters en aanvallers. Bepaal afhankelijk van de puntentelling in de poule waarin je meedoet op basis van deze lijsten wat voor jou het ideale team is.

Heel veel succes met het voorspellen van de Tour poule en ik ben benieuwd of deze blog je daarbij heeft kunnen helpen.