'Goede en slechte scholen: zin en onzin van testen, vergelijken en afrekenen'
16 september 2013
Voor het boek ‘Het Alternatief – Weg met de afrekencultuur in het onderwijs!’ dat over een maand het licht ziet, schreef docent Dick van der Wateren het hoofdstuk ‘Zin en onzin van testen, vergelijken en afrekenen’. Gelet op de commotie die er afgelopen weekeinde is ontstaan, nadat RTL Nieuws de resultaten van Cito-scores per school in de openbaarheid bracht, een zeer actueel bijdrage. Van der Wateren - initiatiefnemer van het blogcollectief OnderwijsOnderzoek - kenschetst de kwalijke gevolgen van het publiceren van schoolcijfers. 'Op het eerste gezicht een goed idee, om het gesprek over de kwaliteit van onderwijs te voeren. Maar een heel slechte ontwikkeling, als je vervolgens tot een verdeling van goede en slechte scholen komt en groepen leraren door de media aan de schandpaal worden genageld.' Zijn verhaal.Minister Schippers van Volksgezondheid kondigde begin juni aan dat ziekenhuizen voortaan verplicht worden hun sterftecijfers te publiceren. Op het eerste gezicht een goed idee. Je wilt tenslotte de beste dokters aan je bed als je ziek bent en niet onverhoeds in een ziekenhuis belanden waar bijna geen patiënt de behandeling overleeft.
Ook ouders die een school zoeken voor hun kind willen terecht dat er een goede kans is dat het met een diploma van school gaat. Als ouder wil je dan wel eens zien hoe die school scoort. Staatssecretaris Dekker van Onderwijs heeft besloten de Cito-scores van alle basisscholen openbaar te maken. Prima, zou je denken. Het wordt tijd dat de scholen met de billen bloot gaan. Bij nader inzien toch niet zo’n goed idee, betoogt de Britse onderwijsvernieuwer, oud-leraar en oud-hoogleraar Dylan Wiliam.
Wiliam schreef onlangs een essay (Are there “Good” schools and “Bad” schools?) in het boek ‘Bad Education – Debunking Myths in Education’ onder redactie van Philip Adey en Justin Dillon. Daarin legt hij uit waarom openbaar maken van sterftecijfers van ziekenhuizen tot misverstanden kan leiden en waarom hetzelfde geldt voor de publicatie van examenresultaten van scholen.
De ruwe sterftecijfers van een ziekenhuis hangen van veel factoren af, waarvan maar een paar direct te maken hebben met de kwaliteit van de zorg en de bekwaamheid van de artsen en verpleegkundigen. Als ik een ziekenhuis moet kiezen voor mijn hartoperatie, zou het niet slim zijn om alleen naar de sterftecijfers te kijken. Dat er in een bepaald ziekenhuis weinig mensen dood gaan betekent nog niet dat daar de beste cardiochirurgen werken. Misschien stuurt dat ziekenhuis de lastige gevallen door naar een gespecialiseerd ziekenhuis, waar ik uiteindelijk beter terecht ben, maar waar in verhouding ook meer patiënten overlijden.
Ruwe sterftecijfers zijn dan ook een heel slechte indicatie van de kwaliteit van een ziekenhuis. Immers, dan zou het Anthonie van Leeuwenhoek een van de slechtste ziekenhuizen van Nederland zijn, want daar gaan veel patiënten dood. Daarom wordt meestal een of andere vorm van weging toegepast, waarbij het aantal sterfgevallen over een periode wordt vergeleken met de te verwachten aantallen voor een bepaalde ziekte. Daarvoor bestaan verschillende, min of meer geavanceerde statistische methoden, waarbij bijvoorbeeld ook wordt gecorrigeerd naar leeftijd van de patiënten, geslacht enzovoorts. Een daarvan is de HSMR, Hospital Standardized Mortality Ratio, die voor de meeste Nederlandse ziekenhuizen wordt gepubliceerd.
De gemiddelde HSMR-score is 100. De scores voor Nederlandse ziekenhuizen liepen in 2010 uiteen van 59 tot 129, maar de meeste ziekenhuizen scoren rond de 100. Er zijn verschillende redenen waarom ook deze gecorrigeerde cijfers geen betrouwbaar beeld geven van de kwaliteit van een ziekenhuis.
Kleine ziekenhuizen vertonen een grotere variatie in sterftecijfers van jaar tot jaar. Een ziekenhuis dat met een verpleeghuis fuseert, zoals het Haagse Bronovo, kan van het ene op het andere jaar zijn HSMR zien stijgen omdat in verpleeghuizen nu eenmaal relatief veel patiënten sterven. In dat jaar is niet ineens de medische kwaliteit achteruit gegaan. Er is een interessant regionaal verschil in ziekenhuissterfte. Zo sterven in Limburg significant meer mensen in het ziekenhuis dan in bijvoorbeeld Groningen (van den Bosch e.a. 2013). Het ligt niet voor de hand dat Limburgse dokters slechter zijn dan Groningse. Aan dit verschil liggen vermoedelijk culturele en religieuze invloeden ten grondslag. Er zijn nog meer (medisch-specialistische) redenen waarom de HSMR kritisch moet worden bekeken (bijv. Pleizier e.a. 2010), die ik hier verder niet zal bespreken. Hoofdzaak is dat zelfs de gewogen sterftecijfers niet zonder meer als kwaliteitsindicator kunnen worden gebruikt. Publicatie daarvan zou moeten worden vergezeld van een uitvoerige toelichting.
Let op: het zijn de statistische experts zelf die kritiek hebben op deze manier van ziekenhuizen vergelijken. Dat komen we ook tegen bij publicatie van examencijfers en Citoscores en in het algemeen bij het vergelijken en beoordelen van scholen en docenten op basis van de resultaten van hun leerlingen.
Er bestaan geen ‘goede’ en ‘slechte’ scholen (Dylan Wiliam, 2012)
Voor mijn bijdrage aan ‘Het Alternatief’ onderzocht ik een aantal vragen over testen en het openbaar maken van Cito-scores en examenresultaten, die nu heel actueel zijn.
Om te beginnen is het ironisch dat Cito zelf het enthousiasme van Sander Dekker, om de gemiddelde Cito-scores van scholen te publiceren, niet deelt. Integendeel, die noemt dat in een goed leesbaar rapport onzin (Cito, 2013). Dat zijn toch de experts, zou je denken, waar Dekker naar zou moeten luisteren. Die experts leggen geduldig uit dat de kwaliteit van het onderwijs maar voor een deel de hoogte van de Cito-score van leerlingen bepaalt. De schoolresultaten van een individuele leerling hangen sterk af van andere factoren, met name de sociaal-economische achtergond van de ouders. Kinderen van hoogopgeleide ouders hebben een voorsprong op hun leeftijdgenootjes, die tot uitdrukking komt in de Cito-scores. De samenstelling van de schoolpopulatie is dan ook van grote invloed op de gemiddelde score van een school, maar zegt weinig over de kwaliteit van het onderwijs van die school.
Wanneer toch wordt besloten de Cito-scores te publiceren – en dat is op verzoek van RTL Nieuws gebeurd – moet worden bedacht dat de schoolscores dicht bij elkaar liggen (Cito, 2013):
De gemiddelde schoolscores op de Citotoets liggen dermate dicht bij elkaar, dat een kleine verandering in de score leidt tot een grote verandering in de rangordepositie van een school. Zo hebben de nummers 1.954 tot en met 2.687 dezelfde gemiddelde schoolscore afgerond op één cijfer achter de komma.
Met andere woorden, de scores verschillen niet significant van elkaar en een rangorde op basis van die getallen is dan ook onzinnig. Er is geen verschil in kwaliteit tussen nummer 1.954 en 2.687, laat staan tussen 1.954 en 1.955. Het zelfde geldt voor de ‘top’ van de ranglijst.
Toeval speelt een grote rol bij de plaatsing in de scholenranglijst (Cito, 2012):
De score van een individuele leerling kan een groot effect hebben op de schoolscore en daarmee op de rangordepositie van een school. Dit is mede het gevolg van de beperkte grootte van de groepen 8 in de scholen. Als in het ene schooljaar net een heel sterke of een heel zwakke leerling zit, kan dit grote gevolgen hebben voor de rangordepositie van de school.
en:
Hoe kleiner de school, des te groter het effect. [E]en kleine school (5-10 leerlingen) [zou] van plek 4.251 naar plek 1.021 gaan als de zwakste leerling niet mee zou hebben gedaan.
Niet in de laatste plaats moeten we bedenken dat de Cito-toetsen bedoeld zijn als hulpmiddel voor docenten en scholen om de vorderingen van hun leerlingen te volgen, niet om die scholen en docenten daarop af te rekenen.
De Dronkerslijstjes
Nu kan men tegenwerpen dat RTL niet de ruwe scores publiceert. Daarover zeggen ze zelf:
Omdat de scores niet zomaar te vergelijken zijn, publiceert RTL Nieuws geen simpele ranglijst met de hoogste Cito-scores. De resultaten van alle scholen zijn door RTL Nieuws samen met professor Jaap Dronkers van de Universiteit van Maastricht vergeleken met scores van vergelijkbare scholen. Dat resulteert in een rapportcijfer voor iedere school.
Die rapportcijfers kennen we al van de schoolcijferlijst voor het VO van Jaap Dronkers (www.schoolcijferlijst.nl), die jaarlijks wordt gepubliceerd in de Volkskrant (voorheen in Trouw). Dronkers en zijn medewerkers gebruiken de gegevens die de Onderwijsinspectie jaarlijks publiceert van alle Nederlandse middelbare scholen. Het schoolcijfer wordt berekend met vier indicatoren: het eindexamencijfer, het cijfer voldoende vakken, bonuspunten toegevoegde waarde en bonuspunten SE-cijfers. Voor details van de berekening verwijs ik naar hun website.
Het toeval, waarover Cito (2013) spreekt, blijkt een grote rol te spelen bij de Schoolcijferlijst van Dronkers. Voor ‘Het Alternatief’ heb ik de Dronkerscijfers van een aantal willekeurige scholen over een aantal jaren bekeken. Wat opvalt zijn de grote fluctuaties van jaar tot jaar en de verschillen tussen de afdelingen van één school. Dat zien we bij heel veel scholen. Dit is nog een relatief rustig voorbeeld. Bij enkele scholen springen de cijfers nog wilder op en neer, van een 3 (soms zelfs een 2) naar een 6 of een 7, om dan weer een paar punten omlaag te duikelen. Daarbij is geen enkel verband te zien tussen bijvoorbeeld het vmbo en het havo op dezelfde school. Wie langer dan een jaar op een school heeft gewerkt zal dat heel onwaarschijnlijk vinden. Het zal zelden voorkomen dat de onderwijskwaliteit van een school het ene jaar extreem slecht is en het volgende ruim voldoende en het daaropvolgende jaar weer naar matig of onvoldoende.
Eén voorbeeld. Voor de rest verwijs ik naar het boek. In dit voorbeeld gaat het om een scholengemeenschap in het zuiden van het land met twee dependances. (N.B. ik noem geen namen. Scholen hebben genoeg te lijden gehad van de rapportcijfers die ze van Dronkers kregen.)
Met school F is iets opmerkelijks aan de hand. Dit is een scholengemeenschap in het zuiden met drie vestigingen in de zelfde plaats, met een vmbo-gt-afdeling in het hoofdgebouw (onderste reeks cijfers), waar ook de havo en vwo zitten. Ook hier zien we weer het beeld van cijfers die in één jaar 2 of 3 punten omhoog of omlaag gaan. Daarnaast zien we in 2006 en 2007 een verschil van 4 punten tussen de vmbo-gt in de hoofdvestiging en de vmbo-k in een nevenvestiging.
Kijken we hoe het in het hoofdgebouw van school F in die zeven jaar gegaan is, dan wordt het nog raadselachtiger. Een school die erin slaagt op de lijsten van Dronkers 8, 9 en 10 te scoren op de havo en het vwo, scoort gemiddeld onvoldoende voor vmbo-gt. Werkt geen van die, voortreffelijke havo- en vwo-docenten op het vmbo? Niet waarschijnlijk. Ongetwijfeld zal er door de schoolleiding nagedacht zijn over deze opmerkelijke cijfers. Het ligt niet meteen voor de hand te twijfelen aan de kwaliteit van het onderwijs op deze school. Daar valt niets zinnigs over te zeggen zonder nader onderzoek naar factoren die de verschillen verklaren tussen afdelingen onderling en de woeste golfbewegingen door de jaren heen.
Mijn conclusie is dan ook:
Dit alles maakt de onderzoeksmethode van Dronkers niet helemaal onbruikbaar, al kun je na het voorgaande grote vraagtekens zetten bij de status van ‘kwaliteitsmeter’ die de jaarlijkse lijst heeft gekregen. Als Dronkers een bijdrage wil leveren aan de verbetering van het Nederlandse onderwijs, wat ik aanneem, dan doet hij er goed aan de gegevens zo te presenteren dat een school daar ook werkelijk wat aan heeft. Alleen punten geven, die door de media dan weer gretig worden opgepakt om scholen en leraren aan de schandpaal te nagelen, is op zijn zachtst gezegd weinig productief.
Van wantrouwen naar vertrouwen
Tenslotte dit. Het is mij een raadsel waarom de Nederlandse overheid dezelfde weg moet inslaan, die de VS jaren geleden ging (met ‘No Child Left Behind’ van George W. Bush en Obama’s ‘Race to the Top) en waarvan de rampzalige gevolgen nu overduidelijk worden. Het zou kunnen voortkomen uit een begrijpelijke behoefte de kwaliteit van het onderwijs te controleren. Het leidt echter tot een managementstijl gebaseerd op wantrouwen en een onwrikbaar geloof in cijfers, die weer onherroepelijk het tegenovergestelde oplevert van wat de overheid beoogt. Staatssecretaris Dekker zou er goed aan doen het voorbeeld te volgen van de Schotse Minister van Onderwijs, die enige jaren geleden besloot de scholenlijstjes à la Dronkers (‘league tables’) niet langer te publiceren. In de woorden van de toenmalige Schotse minister van onderwijs Peter Peacock:
Lees verder
Dick van der Wateren is docent op het Eerste Christelijk Lyceum in Haarlem en begeleid dagelijks talentvolle en begaafde leerlingen die meer uitdaging nodig hebben, of die een probleem hebben waar we samen een oplossing voor vinden. Met zijn bedrijf Boks Communicatie is hij werkzaam als coach en trainer voor jongeren en hun ouders, docenten en ander personeel in het voortgezet onderwijs. Daarnaast heeft hij jarenlange ervaring als wetenschapper (geologisch onderzoek o.a. in Antarctica en Afrika) en wetenschapsvoorlichter.
Reacties