Presenteren van gegevens.
Grafieken en tabellen
Het is moeilijk om getalsmatige informatie op
een effectieve manier duidelijk te maken in woorden. En naarmate de
informatie complexer wordt, en zaken meer met elkaar samenhangen
wordt dit alleen maar lastiger. Een goed gebruik van tabellen en
grafieken kan hierbij een enorme steun zijn. Niet voor niets wordt
gezegd dat één plaatje meer kan vertellen dan duizend woorden. Maar
dan moet het wel goed gebeuren.
- Hoe functioneert een tabel of grafiek?
Het doel van het maken van tabellen is om de
lezer een duidelijk overzicht te geven van het onderwerp van de
tabel. Op een heldere en eerlijke manier moeten de gevonden
uitkomsten worden gerapporteerd. Stijl en vormgeving richten de
lezer op de kern van de zaak. Dingen die de aandacht kunnen afleiden
worden vermeden.
Iets soortgelijks geldt voor grafieken. Wat
moet een grafiek doen? Allereerst natuurlijk de gegevens laten zien,
vaak veel getallen op een kleine ruimte. Vervolgens wil je in een
grafiek samenhang creëren in de (vaak grote hoeveelheid) gegevens.
En je wilt de lezer ertoe aanzetten om na te denken over de inhoud
van de grafiek en niet over het ontwerp, de vorm, de franje en
dergelijke. Ook wil je de lezer aansporen om vergelijkingen te
maken, om overeenkomsten en verschillen te zoeken tussen diverse
delen van gegevens.
Hoe kun je dit allemaal bereiken? Op deze vraag
is geen pasklaar antwoord. Wel kunnen we een aantal punten noemen
die de aandacht verdienen. Maar laten we beginnen met een voorbeeld.
Wanneer je de gegevens in tabellen en grafieken
alfabetisch ordent i.p.v. naar een aspect van de data, dan kan de
aanwezige structuur in de gegevens opeens vrijwel onopgemerkt
blijven. Bekijk daarvoor de volgende grafiek.
Levensverwachting bij de geboorte, naar
geslacht, voor een aantal westerse landen (meest recente jaar)


De gekozen volgorde is alfabetisch (Rusland heette vroeger de Sovjet
Unie). Het verhaal van deze grafiek is dat er weinig variatie
optreedt, en dat vrouwen langer leven dan mannen.
We presenteren de gegevens opnieuw, nu al een steel-en-blad tabel,
maar geordend naar leeftijd, en met lege regels waar nodig.
Levensverwachting bij de geboorte, naar
geslacht, voor een aantal westerse landen (meest recente jaar)

Bron: US Bureau of the
Census, Social Indicators III.
De grootte van het verschil tussen vrouwen en
mannen (zeven jaar) komt nu duidelijk naar voren. Ook zien we dat
mannen in de Sovjet Unie opmerkelijk kort leven, terwijl vrouwen een
levensverwachting hebben die vergelijkbaar is met die in de andere
landen. Zowel door de inhoudelijke ordening als door de vormgeving
is deze tweede weergave van de data duidelijk superieur aan de
eerste.
Welke kwaliteitscriteria kun je gebruiken om
een goede grafiek van een slechte grafiek te scheiden?

Nauwkeurigheid en aanzien
Een tabel of grafiek moet nauwkeurig worden
gemaakt. Het mag niet zo zijn dat door slordigheid van de maker een
misleidend of onvolledig beeld wordt geschapen.
Het aanzien van een tabel of grafiek bepaalt of
zij belangstelling op zal wekken. Een professioneel uiterlijk en een
harmonische, evenwichtige opbouw dragen daar toe bij.

Eenvoud en helderheid
Hoofddoel moet zijn het overbrengen van een
stuk informatie, van een statistische boodschap. Niet ter zake
doende tekst en versiering moet je proberen te vermijden.
De gebruiker van de grafiek moet zonder al te
veel moeite de juiste boodschap eruit kunnen halen. Een tabel of
grafiek is bedoeld om tijd en inspanning te besparen en inzicht te
geven. Het mag geen puzzel zijn en het is ook niet bedoeld ter
decoratie.
Vormgeving
De grafiek of de tabel die je kiest moet in
overeenstemming zijn met de boodschap die je brengt. Maak
functioneel gebruik van grijstinten en kleuren. Verschillen in
waargenomen contrast moeten een aanwijzing zijn voor verschillen in
waarden. En zorg ervoor dat de visuele weergave van de data
consistent is met de numerieke waarden. Optische illusies of
vertekeningen moeten vermeden worden.
Bekijk de zin:
‘Het budget van onze school is voor komend jaar ƒ27.329.681,-‘. Hoe
kan iemand zo’n uitspraak nu bevatten of onthouden? Als er al iets
van blijft hangen, dan is het dat de school komend jaar ongeveer 27
miljoen gulden te besteden heeft. Zeg dat dan ook gewoon! Bovendien,
iedereen die enig verstand heeft van budgetten, weet dat hooguit de
eerste drie cijfers relevant zijn.
Vaak kom je tabellen tegen waarbij de getallen
met een veel grotere precisie gegeven worden dan een lezer ooit zal
begrijpen of gebruiken. Er wordt een schijnnauwkeurigheid
gesuggereerd die averechts werkt. Als voorbeeld geven we nog een
tabel met levensverwachtingen.
Levensverwachting bij de geboorte (in jaren), versie 1
|
Land |
Mannen |
Vrouwen |
|
Argentinië |
56,90 |
61,40 |
|
Brazilië |
39,30 |
45,50 |
|
Canada |
67,61 |
72,92 |
|
IJsland |
66,10 |
70,30 |
|
Japan |
65,37 |
70,26 |
|
Mexico |
37,92 |
39,79 |
|
Nederland |
71,40 |
74,80 |
|
Nieuw Zeeland |
68,20 |
73,00 |
|
Noorwegen |
71,11 |
74,70 |
|
Spanje |
58,76 |
63,50 |
Bron: UN Demographic Yearbook 1962

Wat betekent het eigenlijk, wanneer je een
aantal jaren tot op twee decimalen nauwkeurig opgeeft? Het tweede
cijfer achter de komma telt dan per vier dagen. Wie wil een
gemiddelde levensverwachting nu zo precies weten? Niemand toch. De
informatie is niet alleen nutteloos, de tabel is door de decimalen
ook moeilijker te lezen.
We maken de tabel opnieuw, waarbij we alle
cellen afronden op een geheel aantal jaren, ordenen naar
levensverwachting en twee witregels invoegen om verschillen te
accentueren. Het resultaat is een tabel waarin het verschil tussen
de rijke westerse wereld en de opgenomen ontwikkelingslanden
schrijnend duidelijk wordt.
Levensverwachting bij de geboorte (in jaren), versie 2
|
Land |
Mannen |
Vrouwen |
|
Nederland |
71 |
75 |
|
Noorwegen |
71 |
75 |
|
Nieuw Zeeland |
68 |
73 |
|
Canada |
68 |
73 |
|
IJsland |
66 |
70 |
|
Japan |
65 |
70 |
|
|
|
|
|
Spanje |
59 |
64 |
|
Argentinië |
57 |
61 |
|
|
|
|
|
Brazilië |
39 |
46 |
|
Mexico |
38 |
40 |
Bron: UN
Demographic Yearbook 1962
- De
informatiedichtheid van een grafiek

Hierboven
noemden we eenvoud als kenmerk van kwaliteit. Voor grafieken zijn
twee interessante maatstaven bedacht om dit tastbaar te maken. Denk
na over beide begrippen en doe er je voordeel mee, wanneer je zelf
grafieken gaat maken.
De eerste is de informatie-inkt-verhouding.
Hoeveel inkt heb je gebruikt om de grafiek te tekenen? En zou je met
minder inkt dezelfde gegevens kunnen weergeven? Met dit begrip
kunnen we een van de gruwelijkste neveneffecten van de huidige
computertechniek ontmaskeren, namelijk de 3D-grafiek. Toelichting
bij het voorbeeld lijkt mij overbodig.

Het tweede begrip dat we willen noemen is de gegevensdichtheid. Dit
is gedefinieerd als: Het aantal
weergegeven data / het aantal cm2 dat gebruikt wordt.
Bekijk ter illustratie de volgende grafiek.
Informatiedichtheid = 3 getallen /104 cm2 =
0,029 getallen per cm2.


Opdracht 1
Bekijk eerst de onderstaande grafiek heel
goed.

Welke statistisch incorrecte manier gebruiken
de makers van deze grafiek om de daling van de prijsindex gebruikte
auto’s te accentueren? Verder wordt er nog op een grafische manier
deze daling geaccentueerd, welke?
Wat vindt u van de informatie-inkt-verhouding?
Opdracht 2
In onderstaande grafiek staan enerzijds in de
linkerkolom het aantal vestigingen voor kinderopvang in Oost-Brabant
en anderzijds in de rechterkolom het aantal werkzame personen in de
kinderopvang over de jaren 1994 tot en met 1998.
Welke fout wordt er in deze grafiek gemaakt?

- Technische randvoorwaarden voor
grafieken
Tabellen en grafieken vertellen een verhaal.
Maar dan moet dat verhaal wel compleet zijn. Daarom gelden de
volgende randvoorwaarden waaraan grafiek moet voldoen.
Titel: boven de tabel of grafiek hoort
een korte omschrijving te staan van het onderwerp dat wordt
weergegeven. Wanneer in een wat groter verslag veel tabellen en
grafieken gebruikt worden, is het zinvol om deze op een logische
manier te nummeren. Dit maakt het verwijzen naar een grafiek een
stuk makkelijker.
Bron: als de gegevens afkomstig zijn van een instelling of
uit een bepaald rapport, dan moet deze bron vermeld worden. Vaak
gebeurt dit direct onder de tabel of grafiek. In een groter verslag
kunnen alle bronvermeldingen ook aan het eind worden samengevoegd.
Wanneer je gegevens van Internet afkomstig zijn, dan dien je niet
alleen de URL te vermelden, maar ook het instituut of de persoon die
daar verantwoordelijk voor is, en de datum waarop je de gegevens
gekregen hebt (het Internet verandert namelijk voortdurend).
Bijschrift: (dit geldt voor tabellen) boven in elke kolom
en voorin elke regel van de tabel moet duidelijk vermeld worden om
welk soort gegeven het gaat.
Assen: (dit geldt voor grafieken) gebruik je in je
grafiek assen, dan moet bij de assen vermeld worden welk soort
verschijnsel langs die as is uitgezet. Op de assen hoort een
duidelijke en regelmatige schaalverdeling te staan.
Eenheden: er moet duidelijk vermeld zijn (in de
bijschriften of langs de assen) in welke meeteenheid de betreffende
cijfers zijn gegeven. Als in een tabel voor alle kolommen of regels
dezelfde eenheid geldt, dan kun je dat natuurlijk ook in de kop van
de tabel vermelden.
Legenda: als in een grafiek verschillende gegevensreeksen
voorkomen, dan moeten die op verschillende wijzen worden aangegeven,
bijvoorbeeld door wisselende lijntypen: ononderbroken, streepjes,
stippels en dergelijke. De betekenis hiervan moet duidelijk in de
grafiek of in een legenda worden aangegeven. Het gebruik van een
legenda is aan te bevelen als het storend is om bij de lijnen zelf
tekst te zetten.
Opdracht 3
Welke technische randvoorwaarden mis je in de
grafieken van de opdrachten 1 en 2?
Opdracht 4
In het bejaardentehuis Avondrust wonen 45
bejaarden. De leeftijdsopbouw van de bewoners staat weergegeven in
onderstaand cumulatief relatief frequentiepolygoon.

a) Werk deze grafiek om tot een
frequentietabel
b) Schat grafisch de leeftijd waarvoor
geldt dat 30% van de bewoners jonger is en 70% van de bewoners dus
ouder.
Deze curve wordt ook toegepast bij het
analyseren van de omzet per productgroep in je assortiment. langs de
ene as wordt het aantal artikelen in het assortiment uitgezet als
cumulatief percentage, waarbij we beginnen met de artikelen die het
beste lopen. Langs de anders as zetten we de cumulatieve relatieve
omzet uit.
Deze figuur vormt de aanleiding om het
assortiment in drie groepen te verdelen. Groep A bestaat uit 20% van
het totale assortiment maar zorgt wel voor zo’n 80% van de totale
omzet. Groep B is een middengroep. Groep C bestaat uit de incourante
artikelen. Zij vormen samen 50% van het assortiment maar zijn
slechts goed voor 5% van de omzet.
Men spreekt dan ook wel eens van de
ervaringsregel 20% / 80%.
Opdracht 5
Hieronder staan drie grafieken uit de
Volkskrant van zaterdag 25 februari 2007.
Ze zijn geplaatst om het effect van het
vervangen van gloeilampen door spaarlampen in kaart te brengen.
|
Grafiek VK1.

|

Grafiek VK3
|
|

Grafiek VK2
|
Geef bij elke grafiek aan wat je er goed aan
vindt en wat je er beter aan zou kunnen.
Denk hierbij ook aan de boodschap die men met
de grafieken wil vertellen en over de wijze waarop deze boodschap
overkomt.

Hoe een variabele gemeten is, bepaalt mede welke statistische
technieken bruikbaar zijn.
Voor variabelen van kwalitatief nominaal of kwalitatief ordinaal
of kwantitatief discreet meetniveau.
Een frequentietabel geeft de verdeling. Kijk
daarbij naar aantallen en naar percentages. Let ook op het aantal
mensen dat antwoord heeft gegeven (valid cases) en op het aantal
mensen dat geen antwoord heeft gegeven (missing cases).
Wanneer er een logische ordening is dan kun je
ook cumulatieve percentages gebruiken. Een logische ordening heb je
vanzelf bij ordinaal of kwantitatief discreet meetniveau. Soms is
het zinvol om een nominale variabele te ordenen op het aantal malen
dat een bepaald antwoord is gegeven.
De meest gebruikte grafische weergave van een
frequentieverdeling is een staafdiagram (bar chart). Staafdiagrammen
worden meestal pas interessant, wanneer je meerdere verschijnselen
naast elkaar zet, of wanneer je een variabele uitsplitst naar
bepaalde groepen. Je krijgt dan een geclusterd of een gestapeld
staafdiagram.

Voor variabelen van kwantitatief continu meetniveau
Geschikte grafische weergaven voor de verdeling
van een kwantitatief continue variabele zijn het histogram en het
boxdiagram. Op de vorm van het histogram kun je nog invloed
uitoefenen via de keuze van de klassen. (Gebruik je een
computerpakket om een histogram te maken, zorg er dan voor dat alle
klassen even breed zijn.). Opmerking: via een klassenindeling kun je
bij een continue variabele een discrete maken.

 |