WK voetbal 2022 voorspellen met data

Het WK voetbal staat op het punt van beginnen en de meeste WK poules zijn ingevuld. Zo ook bij Infotopics. Dat riep bij ons een vraag op:

Kun je op basis van data het WK voetbal voorspellen?

Eerder hebben we al onderzocht wat de meest ideale opstelling is voor Coach van het jaar. Het voorspellen van het WK op basis van data zou ook mogelijk moeten zijn. Daarvoor hebben we gewerkt met Alteryx, het ideale hulpmiddel om voorspellende modellen te ontwikkelen.

Lees in deze blog wie op basis van data het WK gaat winnen!

Op zoek naar een goede dataset

Waar beginnen we om een voorspelling te kunnen maken van het WK 2022? Het meest logische antwoord is natuurlijk: data. Online zijn verschillende datasets beschikbaar, waaronder de set “International football results from 1872 to 2022”. Zoals de naam al doet vermoeden bevat deze dataset alle historische voetbaluitslagen tussen landenteams. Interessant en bruikbaar!

Daarnaast kiezen we de software-oplossing om de predictive analyse uit te voeren. Alteryx is een tool waar business- en data analisten wereldwijd mee werken om data te prepareren, combineren en analyseren op basis van workflows. Het is in Alteryx mogelijk om verschillende datasets te combineren, zelf analytische datasets te ontwikkelen én voorspellende modellen te maken. Precies de tool die we hiervoor nodig hebben.

Datapreparatie en analyse in Alteryx

We hebben de data en we hebben de tool. De vervolgstap is daadwerkelijk aan de slag gaan in Alteryx: de data opschonen en gereedmaken voor analyse.

Elk datapreparatie traject start met de vraag: “hoe moet de data er uitzien?”. Om die vraag te beantwoorden moeten we weten wat we uiteindelijk gaan doen met de verzamelde data.
Daarvoor specificeren we ons oorspronkelijke vraagstuk als volgt:

“Kan het analysemodel voorspellen welk land wint wanneer ik de wedstrijden van het WK door het model heen haal?”

Dit type voorspelling is een binaire voorspelling, een land wint of verliest. Een gelijkspel laten we voor deze analyse buiten beschouwing, dit is immers alleen in de poulefase van kracht.

Om een binair model de voorspelling te laten uitvoeren wordt gekeken naar voorspellende kenmerken van één regel met data in de dataset. De data ziet er als volgt uit:

De hoeveelheid voorspellende kenmerken in deze dataset lijkt gevoelsmatig wat mager. Daarom verrijken we de data met de ranking van de deelnemende landen uit een extra dataset: “FIFA World Ranking 1992-2022”.

Een wedstrijd is gespeeld op een bepaalde datum. De ranking per land is op [Maand]- en [Jaar]niveau. Op dit niveau voegen we de data in Alteryx eenvoudig samen, dat noemen we joinen. Hierdoor wordt de data met de volgende kolommen verrijkt:

Nu worden er voor een gespeelde wedstrijd dus meer kenmerken meegenomen in het voorspellende model!

Omdat we van wedstrijden die voor 1992 gespeeld zijn geen ranking hebben, wordt in de analyse alleen data meegenomen van 1992 tot en met 2022.

Voorspellende analyses met Alteryx

Alteryx heeft veel verschillende predictive tools. Gezien we voor ons vraagstuk een model nodig hebben dat een binaire voorspelling doet, testen we een selectie van de beschikbare modellen. Dit zijn “Decision Tree”, “Naive Bayes Classifier”, “Logistic Regression” en “Boosted Model”.

Met de “Create Samples” tool in Alteryx knippen we de dataset op in 3 delen:

  • Estimation sample data (34%)
  • Validation sample data (33%)
  • Holdout data (33%)

Met de “Estimation sample data” trainen we de verschillende modellen. Dit wil zeggen dat het model aan de hand van de kenmerken op één regel met data leert of een land een wedstrijd wint of verliest.

Vervolgens gebruiken we de “Score” tool om de uitkomst van het model te testen op de “Validation sample data”.

Nu proberen verschillende modellen de winnaar van een reeds gespeelde wedstrijd te voorspellen. Omdat onze datasets alleen historische data bevatten, kunnen we controleren welk predictive model van Alteryx het meest accuraat een wedstrijd heeft voorspeld. Het model dat dit het beste heeft gedaan, laten we voorspellen wie het WK 2022 gaat winnen op basis van data.

De winnaar van ons predictive analysemodel is bekend! De ”Logistic Regression” tool heeft 66% van de wedstrijden correct voorspeld. Zowel de “Decision Tree” als “Boosted Model” heeft 63% correct voorspeld. De  “Naive Bayes Classifier” scoorde met 61% correct voorspelde wedstrijden het laagst.
Het model heeft, aan de hand van de kenmerken op één regel met data, voorspelt of een land of wedstrijd wint of verliest.

De uitslag: wie wint het WK 2022 op basis van data?

Alle gespeelde wedstrijden van 1992 tot en met 2022 van de deelnemende landen aan het WK 2022 halen we door het “Logistic Regression” model in Alteryx. De uitkomst van dit model scoren we aan de wedstrijden uit de poulefase van het WK. In deze stap wordt per wedstrijd uitgerekend wat de meest waarschijnlijke winnaar is.

Per gewonnen wedstrijd kennen we in Alteryx punten toe aan een land. Dit resulteert in een voorspelling van eindstanden per groep. Op basis van deze eindstanden in de groepsfase vullen we de wedstrijden in de knockout fase van het toernooi in. Wanneer we de wedstrijden van de knockoutfase per ronde door het model halen, resulteert dit in het volgende toernooi verloop:

De uitslag: WK 2022 voorspelling op basis van data

  • Nederland sneuvelt in de kwartfinale tegen Argentinië.
  • De finale wordt gespeeld tussen Brazilië en regerend wereldkampioen Frankrijk.
  • Brazilië trekt in deze finale aan het langste eind en mag zich de nieuwe Wereldkampioen noemen.
  • Tot slot neemt de beul van Oranje het in de troostfinale op tegen Portugal…
  • …en mag Argentinië het brons van het WK in ontvangst nemen.

Hoe waarschijnlijk is het dat deze voorspelling voor het WK 2022 uitkomt?

Dat is moeilijk te zeggen. We hebben met behulp van Alteryx de meest waarschijnlijke winnaar per wedstrijd uitgerekend op basis van resultaten en ranking van nationale elftallen uit het verleden.

Maar zoals de aloude voetbalwijsheid klinkt: “De bal is rond”!

Er kunnen natuurlijk altijd verrassingen zijn tijdens een WK. Desalniettemin zijn ook wij erg benieuwd hoe dicht de voorspelling in de buurt komt van het daadwerkelijke toernooiverloop.

Benieuwd naar de mogelijkheden van predictive analytics en/of Alteryx voor jouw organisatie? Neem contact met ons op!

Disclaimer: de aanpak die hierboven door ons omschreven staat om tot de voorspelling te komen, hebben we op basis van eigen inzicht en beschikbare datasets bepaalt. Uiteraard zijn er nog veel meer voorspellende kenmerken die toegevoegd kunnen worden. Het model kan zo complex gemaakt worden als je zelf wilt. Het doel van deze blog is om mensen te inspireren om op een laagdrempelige manier aan de slag te gaan met predictive analytics.