Basis

Programmatisch toetsen is een holistische manier van toetsen waarbij gekeken wordt naar de gehele ontwikkeling van de student. Het doel van programmatisch toetsen is het optimaliseren van de beslisfunctie én het optimaliseren van de leerfunctie van toetsing (Baartman et al., 2020). Op deze pagina zal eerst worden ingegaan op wat we uit de literatuur weten over het optimaliseren van deze twee functies van toetsing. Vervolgens zal worden beschreven hoe programmatisch toetsen hierop aansluit.

Optimaliseren van de beslisfunctie

Als je belangrijke beslissingen neemt over studenten zoals het toekennen van (grote aantallen) studiepunten, wat uiteindelijk zal leiden tot het toekennen van een diploma, dan is het belangrijk dat deze beslissing betrouwbaar en valide is.

Betrouwbaarheid

Bij betrouwbaarheid gaat het om de vraag hoe consistent je iets meet, bijvoorbeeld doordat verschillende beoordelaars het met elkaar eens zijn, of doordat je bij een herhaalde meting dezelfde uitkomst krijgt. Vaak wordt gedacht dat mc-toetsen (of meer “gestandaardiseerde toetsen”) meer betrouwbaar zijn dan bijvoorbeeld mondelinge toetsvormen of observaties in de praktijk (meer “subjectieve toetsen”). Uit onderzoek is gebleken dat álle toetsvormen onbetrouwbaar zijn als de toetstijd maar kort is, dus als een mc-toets weinig items bevat of een observatie in de praktijk slechts een korte momentopname is (Van der Vleuten & Schuwirth, 2005) (C. van der Vleuten et al., 2010). Meer toetstijd, oftewel meer vragen in een toets of meer meetmomenten in de praktijk, bleek daarentegen wel tot een betrouwbare beslissing te leiden. Interessant aan dit onderzoek was dat dit niet alleen bleek voor meer subjectieve toetsvormen zoals praktijkobservaties en mondelinge examens, maar ook voor meer objectieve toetsvormen zoals multiple choice toetsen. Dus niet de manier van toetsen maar juist een veelvuldigheid aan meetmomenten leidt tot een betrouwbare beslissing.

Validiteit

Validiteit gaat over de vraag of een bepaalde toetsvorm (of combinatie daarvan) echt het construct meet dat we beogen, en niet bijvoorbeeld maar een deel daarvan, of net iets anders. Vaak willen we dat studenten complexe vaardigheden of competenties ontwikkelen, of kunnen handelen in een complexe beroepspraktijk. Om dit daadwerkelijk te kunnen meten is het nodig om niet alleen naar de kennis maar ook naar de gedragingen van een student te kijken, in de context van die complexe beroepspraktijk. Een valide toetsprogramma moet dus recht kunnen doen aan de verschillende aspecten van de complexe vaardigheden die de opleiding beoogt aan te leren. Dit betekent dat een mix aan methoden nodig is om complexe vaardigheden / competenties te kunnen beoordelen.

Het stimuleren van het leerproces van de student

Toetsing wordt vaak primair ingezet als afsluiting van een leerproces (assessment of learning), terwijl juist de verbinding van toetsing aan de onderwijspraktijk en het leerproces van waarde kan zijn voor de ontwikkeling van de student (assessment for learning) (Baartman et al., 2020). Zo blijkt uit onderzoek dat het leerproces van de student stopt wanneer de beoordeling is gegeven (Kohn, 2011). Ook is gebleken dat studenten zich met name inzetten voor datgene waar zij op getoetst worden (Kickert et al., 2022). Het inzetten van toetsing als afsluiting van het leerproces leidt dus tot povere leerstijlen die als focus hebben de toets te behalen. Vaak krijgen studenten een cijfer voor een toets. Cijfer zijn echter maar een hele summiere vorm van feedback. Het cijfer vertelt studenten namelijk alleen iets over hoe goed zij het hebben gedaan, maar zegt verder niets over wat goed was en wat beter kon. Op deze manier krijgen studenten maar weinig inzicht in hun eigen leerproces wat het lastig maakt om hier als student de regie over te pakken. Bovendien vraagt de ontwikkeling van complexe vaardigheden of competenties tijd. Studenten ontwikkelen dit niet in een paar weken. Zij hebben langdurige oefenmogelijkheden nodig, met steeds feedback en nieuwe mogelijkheden om zich te verbeteren. Een toetsprogramma dat van waarde is voor het leerproces van de student zou dus inzichten moeten bieden in de ontwikkeling van de student en ruimte moeten bieden voor doorontwikkeling.

Uitgangspunten van programmatisch toetsen

Op basis van de hierboven omschreven inzichten is programmatisch toetsen ontwikkeld (Heeneman et al., 2021; Van der Vleuten et al., 2012), waarbij de volgende uitgangspunten centraal staan (Baartman et al., 2020). Deze uitgangspunten worden hieronder kort toegelicht en zijn ook te vinden in deze kennisclip.

1. Inzicht in de ontwikkeling van de studenten ontstaat door een mix van verschillende datapunten

Binnen programmatisch toetsen wordt de ontwikkeling van studenten inzichtelijk gemaakt aan de hand van datapunten. Datapunten zijn dingen die de student doet of maakt, en die informatie geven over hun kennen en kunnen. Dit kan bijvoorbeeld een gemaakte opdracht, beroepsproduct, handeling in de praktijk, presentatie of de uitkomst van een kennistoets zijn. De vormkeuze van het datapunt staat hierbij ten dienste van het leerproces. Zo lokt bijvoorbeeld een kennistoets ander leergedrag uit dan een praktijkopdracht. Er bestaan dus geen voorkeurstypen van datapunten. Wel is de combinatie van verschillende typen datapunten van belang voor de validiteit, aangezien professionals in de beroepspraktijk ook op het ene moment bezig zijn met het schrijven van een rapport en op andere momenten bezig zijn met het geven van een presentatie, het bespreken met klanten, het uitvoeren van praktische handelingen, et cetera. Geen enkel datapunt kan daardoor dekkend zijn voor alle complexe vaardigheden of competenties die beoordeeld dienen te worden.

2. Elk datapunt is feedbackgericht en kent geen zak-/slaagbeslissing

Op basis van een datapunt kan nog geen zak-/slaagbeslissing genomen worden zoals het wel of niet toekennen van studiepunten. Een datapunt is immers maar een momentopname en geeft daarom geen betrouwbaar beeld van wat de student weet en kan. Wel is het van belang dat studenten feedback krijgen bij ieder datapunt zodat zij inzicht krijgen in waar zij nu staan en wat mogelijke vervolgstappen zijn. Deze feedback kan zowel kwantitatief (bijvoorbeeld een score op een 5-puntschaal of een percentage goed beantwoorde vragen) als kwalitatief (narratieve feedback) zijn. Doordat er geen zak-/slaag beslissing verbonden is aan een datapunt, kan de student leren en fouten maken. Bovendien kan de student vanuit verschillende perspectieven feedback krijgen op zijn werk, waarbij niet iedereen dezelfde mening hoeft te hebben (zoals bij interbeoordelaars-betrouwbaarheid). Hierbij kun je denken aan feedback van docenten, mensen uit de praktijk en peers. Deze feedback kan de student weer benutten voor een volgende opdracht, waarin een beroep wordt gedaan op dezelfde competenties.

3. De leeropbrengsten vormen de ruggengraat van het toetsprogramma

Binnen programmatisch toetsen zijn de beoogde leeropbrengsten het uitgangspunt voor de keuze van de datapunten. Op basis van dit raamwerk aan leeropbrengsten (competenties, kerntaken, beroepsrollen et cetera) wordt bepaald wat de student moet laten zien om de beoogde leeropbrengsten aan te tonen. Dit wordt ook wel de ruggengraat genoemd: de leeropbrengsten uitgewerkt in een aantal niveaus. Datapunten worden gekoppeld aan deze ruggengraat, zodat het voor zowel docenten als studenten inzichtelijk is welke datapunten een bijdrage leveren aan welke beoogde leeropbrengst en het leerproces daar naartoe. Datapunten en de feedback op datapunten worden vastgelegd in een portfolio om de ontwikkeling van de student te kunnen monitoren. Ook in dit portfolio vormt de ruggengraat het uitgangspunt. Een student kan bijvoorbeeld alle datapunten en feedback opvragen van één beoogde leeropbrengst. Het monitoren en begeleiden van de ontwikkeling van studenten gebeurt ook aan de hand van de ruggengraat. Zo kunnen verschillende betrokkenen feedback geven aan de hand van feedbackformulieren waarin ook de onderliggende competenties terugkomen. Zo gaat de feedback die studenten ontvangen niet alleen over hoe zij de specifieke opdracht uit hebben gevoerd, maar ook over de competenties die zij hierbij hebben ingezet en ontwikkeld. Deze feedback kan een student weer benutten voor een volgende opdracht waar dezelfde competenties aan gekoppeld zijn. Op deze manier verzamelen studenten verschillende datapunten die dezelfde competenties aantonen. Al deze informatiebrokjes samen kunnen vervolgens weer leiden tot een betrouwbare zak-/slaagbeslissing. Ook bij het nemen van een beslissing (zie uitgangspunten 5 en 6) vormt de ruggengraat de basis: informatie uit de verschillende datapunten wordt geaggregeerd aan de hand van de ruggengraat voor het nemen van een beslissing over de beoogde leeropbrengsten.

4. Er is een constante dialoog over het gebruik van feedback voor zelfsturing

Uit onderzoek is gebleken dat studenten niet automatisch aan de slag gaan met de feedback die zij krijgen. Het leren vragen, ontvangen en benutten van feedback, en (uiteindelijk) het nemen van regie over het eigen leerproces moet daarom begeleid worden. Deze begeleiding kan geboden worden door een mentor/coach die de ontwikkeling van de student volgt aan de hand van de datapunten en hier regelmatig het gesprek met de student over aan gaat. De mentor/coach bespreekt samen met de student de ontwikkeling aan de hand van de datapunten die tot dan toe verzameld zijn in het portfolio.

5. Het aantal datapunten en de zwaarte van de beslissing zijn proportioneel aan elkaar gerelateerd

Zoals eerder aangegeven zijn er veel datapunten nodig om een betrouwbare beslissing te kunnen nemen. Bij programmatisch toetsen wordt niet gesproken over “formatief” of “summatief”, maar over een continuum aan stakes, van low stakes beslissingen naar high stakes beslissingen. Bij low stakes beslissingen staat er weinig op het spel voor de student (bijvoorbeeld feedback op een datapunt), en bij high stakes juist veel (bijvoorbeeld een beslissing over een groot aantal studiepunten, overgang naar een volgende fase van de opleiding of stage). Medium stakes beslissingen zijn veelal tussentijdse beoordelingen waarin er samen met de student gekeken wordt hoe deze er nu voor staat op basis van de verzamelde datapunten. Deze beoordeling wordt vaak halverwege de onderwijsperiode gepland zodat de student nog genoeg tijd heeft om te werken aan de geconstateerde leerdoelen en datapunten kan verzamelen om groei aan te tonen. De zwaarte van de beslissing (dat wat er op het spel staat voor de student) moet in verhouding staan tot het aantal datapunten dat aanwezig is om die beslissing op te baseren. Dit betekent dat voor high stakes beslissingen veel datapunten nodig zijn. Deze veelheid aan datapunten, voorzien van feedback van diverse betrokkenen (docenten, mensen uit de praktijk, medestudenten et cetera) zorgt voor intersubjectiviteit en daarmee een robuuste beslissing.

6. De zwaarte van een beslissing is leidend voor de hoeveelheid benodigde beoordelaarsexpertise

Bij programmatisch toetsen wordt op basis van een veelheid aan datapunten een beslissing genomen over de beoogde leeropbrengsten. Echter, gezien de heterogeniteit van de datapunten, kan er geen rekenkundig oordeel geveld worden over het totaal aan datapunten. Een high stakes beslissing op basis van een groot aantal datapunten vereist daarom een professioneel holistisch oordeel. Bij programmatisch toetsen wordt zo’n high stakes beslissing genomen door een besliscommissie. Ook hier geldt: wanneer een beslissing meer high stakes is, is meer beoordelaarsexpertise nodig, bijvoorbeeld door het inzetten van meer beslissers, het trainen van de beslissers en kalibreersessies. Om het beslisproces te vergemakkelijken wordt veelal gebruik gemaakt van holistische beoordelingscriteria en niveaubeschrijvingen van de beoogde leeropbrengsten.

References

Baartman, L. K. J., Schilt-Mol, T. van, & Vleuten, C. P. M. van der. (2020). Programmatisch toetsen: Voorbeelden en ervaringen uit de praktijk. Hogeschool Utrecht.
Heeneman, S., Jong, L. H. de, Dawson, L. J., Wilkinson, T. J., Ryan, A., Tait, G. R., Rice, N., Torre, D., Freeman, A., & Vleuten, C. P. van der. (2021). Ottawa 2020 consensus statement for programmatic assessment–1. Agreement on the principles. Medical Teacher, 43(10), 1139–1148.
Kickert, R., Meeuwisse, M., Stegers-Jager, K., Prinzie, P., & Arends, L. (2022). Curricular fit perspective on motivation in higher education. Higher Education, 83(4), 729–745.
Van der Vleuten, C. P. M., Schuwirth, L. W. T., Driessen, E. W., Dijkstra, J., Tigelaar, D., Baartman, L. K. J., & Tartwijk, J. van. (2012). A model for programmatic assessment fit for purpose. Medical Teacher, 34(3), 205–214. https://doi.org/10.3109/0142159X.2012.652239
Vleuten, C. P. van der, & Schuwirth, L. W. (2005). Assessing professional competence: From methods to programmes. Medical Education, 39(3), 309–317.
Vleuten, C. van der, Schuwirth, L., Scheele, F., Driessen, E., & Hodges, B. (2010). The assessment of professional competence: Building blocks for theory development. Best Practice & Research Clinical Obstetrics & Gynaecology, 24(6), 703–719.