Infotopics Weekly Tableau Data Challenge: #1 RDW Data Design

Hoe blijf je gemotiveerd en aan je ontwikkeling werken als er minder werk voor handen is of wanneer je minder direct contact hebt met je collega’s of klanten? Daar hebben wij wat op gevonden. Doe samen met je collega’s mee aan onze Weekly Data Challenge! Elke week publiceren wij een uitdaging met een openbare dataset. Je hebt hiervoor het product Tableau Desktop, Tableau Prep of misschien wel Alteryx voor nodig.

Personenauto’s in Nederland

Doordat een groot gedeelte van Nederland momenteel noodgedwongen niet naar hun werk kan, zijn er een stuk minder personenauto’s op de weg te vinden. Dat het normaal wat drukker is in Nederland komt mede door de 9,7-miljoen gekentekende personenauto’s die wij hebben. Onder deze personenauto’s waren er in februari van dit jaar 29.101 Volkswagens met een geconstateerd gebrek, waarvan er precíes 2.000 een ruitenwisserinstallatie hadden die onvoldoende zicht gaven, zo’n 7% van de gecontroleerde Volkswagens.

Hoe ik dit weet? Deze data is openbaar beschikbaar voor iedereen!

RDW Open Data portaal

Het Open Data portaal van het RDW is naar mijn mening een goed voorbeeld hoe je data op een laagdrempelige wijze beschikbaar stelt. Voor de bevindingen hierboven had ik (een combinatie van) 3 datasets nodig:

Deze data heb ik gebruikt in het volgende fantastisch ontworpen dashboard:

Infotopics Weekly Tableau Challenge - 1 RDW Data Design

Dataset

Omdat het in totaal om een dikke 37 miljoen regels en 8,4 GB aan data gaat, waarbij wat preparatie nodig was om te kunnen starten, heb ik een geaggregeerde dataset gemaakt: elke regel is per merk, per model, per maand, per gebrek het aantal voertuigen en het aantal gebreken. Heeft jouw Volkwagen Golf te weinig profiel op alle banden? Dan zou dit als 1 voertuig met 4 gebreken moeten tellen. De data is van 1 april 2017 tot en met 26 maart 2020. In totaal gaat het om 2,5M regels en 6 kolommen, peanuts voor Tableau.

Uitdaging

Mijn uitdaging voor jullie: ontwerp een killer dashboard waarmee je een goed verhaal vertelt met deze data. Om de smaak te pakken te krijgen zou je kunnen beginnen met het beantwoorden van de volgende vragen:

  • Hoeveel unieke gebreken zijn er? Neemt dit aantal toe over de tijd?
  • Welke gebreken komen het meeste voor? Wat vind je hier opvallend aan?
  • In welke maand worden de meeste gebreken geconstateerd? En verschilt dit per merk?
  • Of, iets pittiger: hoeveel gebreken zijn er in totaal waarbij iets met een lamp of licht aan de hand is? En wat is het aandeel hiervan ten opzichte van de rest van de gebreken?

Show us what you got en win de eeuwige roem.

Hou je van een uitdaging, dan is er tevens een grotere dataset dat niet is geaggregeerd: elke regel is een unieke combinatie van kenteken en gebrekID met wat extra dimensies en meetwaarden. Met andere woorden, als een kenteken geen gebrek heeft gehad en is het gebrek null en komt dit kenteken maar op 1 regel voor. Heeft een auto meerdere gebreken, dan zal het kenteken op meerdere regels voorkomen, maar maakt het gebrekID deze regels uniek. Let op, met 17,9 miljoen regels en 9 kolommen is dit een wat flinker bestand.

Dataset

Omdat dit in totaal om een dikke 37-miljoen regels data gaat met meer velden dan dat je nodig hebt, heb ik vast een dataset voor jullie klaargezet. Elke regel is een unieke combinatie van kenteken en gebrekID. Met andere woorden, als een kenteken geen gebrek heeft gehad, komt dit kenteken maar op 1 regel voor. Heeft een auto meerdere gebreken, dan zal het kenteken op meerdere regels voorkomen, maar maakt het gebrekID deze regels uniek. Verder daag ik je vooral uit om zelf uit te vinden wat de verschillende dimensies en meetwaarden inhouden.

Ga je de uitdaging aan?

Lukt het jou om de challenge te voltooien? Elke vrijdag delen we de oplossing en laten we middels een 30 minuten webinar de antwoorden zien. Laat ons en vooral ook jouw collega’s weten dat je meedoet door op de volgende button te klikken. Wij nodigen je dan uit voor de antwoordsessie op vrijdag.

Kun je niet wachten tot vrijdag? Publiceer je dashboard op Tableau Public met #datachallenge.