Betrouwbaarheid en besluitvorming
We kennen allemaal wel voorbeelden van cijfers waarbij we grip willen krijgen op de betrouwbaarheid. Je kunt bijvoorbeeld denken aan het percentage positieve beoordelingen ten opzichte van het totale aantal beoordelingen en aan hoe we zelf rekening houden met die 100% positieve beoordelingen op basis van 1 beoordeling. In gedachten nemen we de betrouwbaarheid van dat percentage al mee in ons besluit, maar de basis van die besluitvorming kunnen we zelf heel goed aan de visualisatie toevoegen.
Dit gaat in principe op in scenario’s waar we met kleine aantallen toch het juiste willen beslissen. Denk eens aan het scenario dat er weinig respondenten zijn op je survey en je toch het percentage ‘eens met de stelling’ toont. Of het voorbeeld vanuit de medische biologie waarin je het aantal cellen met een bepaalde eigenschap wilt afzetten tegen het totale aantal cellen. Het fictieve voorbeeld dat ik hieronder uitwerk gaat over het percentage overgewicht onder Nederlanders.
Overgewicht als percentage
Als we het percentage overgewicht per regio weergeven zoals in onderstaand voorbeeld, dan kan de indruk worden gewekt dat regio P een hoger percentage overgewicht heeft dan regio J en in essentie is dat ook het enige wat je kunt concluderen met deze grafiek – naast het feit dat regio P en J een zeer ernstig probleem hebben op vlak van overgewicht.
Nu is het zaak om wat duiding toe te voegen aan deze grafiek door het aantal gemeten personen en het aantal personen met overgewicht toe te voegen aan de grafiek. Het resultaat zie je hieronder.
Als je een relatief hoge datavaardigheid hebt, kun je alvast een inschatting maken hoeveel waarde je wilt toekennen aan de cijfers in de grafiek. In de rest van deze blog richt ik me op het toevoegen van het betrouwbaarheidsinterval zodat het voor iedereen gemakkelijker wordt om de waarde van de getallen in te zien.
Bronvermelding betrouwbaarheidsinterval
Het vak statistiek is bij het meerendeel van de hoogopgeleide onderdeel geweest van de opleiding en heeft bij velen van hen een onuitwisbare indruk achtergelaten. Alle methodes en ingewikkelde formules daargelaten, wil ik eerst kruisverwijzen naar dit vakboek van Technology (NIST). Het is uit dit vakboek dat ik kennis nam van de betrouwbaarheidsintervallen die we nodig hebben om deze cijfers te duiden en we hebben ze te danken aan het duo Agresti en Coull die in 1998 hun methode openbaarden. Ik heb gekozen voor juist deze formule aangezien deze beter werkt dan de standaard binomiale verdeling (wikipedia). De aanpak van Agresti en Coull werkt namelijk uitstekend bij het inschatten van het werkelijke percentage als je met kleine aantallen werkt of juist met zeer hoge of zeer lage percentages werkt.
Testen op een klein voorbeeld
Om te toetsen of de formule juist wordt toegepast, heb ik wat testdata in een spreadsheet ingevoerd tezamen met de formules voor de betrouwbaarheidsintervallen. In de onderstaande afbeelding zie je dat de formule wat complex lijkt, maar tegelijkertijd leunt op een aantal terugkerende cijfers: het aantal totaal, het percentage en de z-score die hier gebaseerd zijn op het 95% betrouwbaarheidsinterval. We kunnen hieronder ook zien dat in regio P 24 mensen met overgewicht op totaal 26 mensen een percentage oplevert van 92,3% overgewicht. Om een inschatting te doen waar de werkelijke waarde van dit percentage zit, zie je dat het betrouwbaarheidsinterval reikt van 75,9% tot 97,9% – dit zijn de getallen die ik in Tableau wil tonen.
De vertaling naar Tableau
De eerste stap is om de formule om te zetten naar de syntax die Tableau verwacht. Gelukkig is de formule in Tableau vrij op te maken en daardoor relatief snel ingevoerd. Nadat zowel de ondergrens (LL) als bovengrens (UL) toegevoegd zijn aan Tableau, kan het betrouwbaarheidsinterval worden toegevoegd aan de visualisatie.
Het resultaat
In onderstaande grafiek kun je grasduinen door de percentages overgewicht en direct inzicht krijgen in de betrouwbaarheid van de genoemde cijfers. Dankzij de toevoeging van het betrouwbaarheidsinterval weten we nu dat we voorzichtig moeten zijn om het percentage overgewicht bij vrouwen voor regio P te vergelijken met andere regio’s en dat in alle andere regio’s veel meer data is verzameld om conclusies op te baseren.