Beslisfunctie

Programmatisch toetsen beoogt zowel het optimaliseren van leren, als het optimaliseren van beslissingen die worden genomen over studenten (Van der Vleuten et al. (2012)). Om tot een beslissing te komen over de beheersing van beoogde leeropbrengsten, wordt bij programmatisch toetsen informatie over de leeropbrengsten gedestilleerd uit alle beschikbare datapunten (aggregatie van informatie). Er wordt op basis van alle datapunten een holistische beslissing genomen (Baartman et al. (2020)).

Een continuum van low-stakes tot high-stakes beslissingen

Eén van de uitgangspunten van programmatisch toetsen is dat het aantal datapunten en de zwaarte van de beslissing proportioneel aan elkaar gerelateerd zijn (Van der Vleuten et al. (2012)). Bij programmatisch toetsen wordt daarom niet gesproken over “formatief” of “summatief”, maar over een continuum aan “stakes”: van low-stakes beslissingen naar high-stakes beslissingen. Bij low-stakes beslissingen staat er weinig op het spel voor de student. Het gaat bijvoorbeeld om feedback op een datapunt, waarbij de consequentie is dat de student de feedback moet verwerken of extra moet oefenen. Bij high-stakes beslissingen staat er wel veel op het spel voor studenten. Er wordt een zak-/slaagbeslissing genomen, vaak over een groot aantal studiepunten of bijvoorbeeld toelating tot een volgende fase van de opleiding of de afronding van de stageperiode (Baartman et al. (2020)). Voor het nemen van zo’n high-stakes beslissing zijn veel datapunten nodig.

Hoeveel datapunten heb je nodig en wat is saturatie?

High-stakes beslissingen zijn gebaseerd op veel datapunten, op rijke informatie uit verschillende contexten en op feedback vanuit veel verschillende perspectieven (docenten, werkveld, medestudenten) op die datapunten. De datapunten vormen samen een totaalplaatje van de student, waarover een holistische beslissing wordt genomen. Er kan een robuuste beslissing worden genomen over de student, wanneer dit plaatje duidelijk genoeg is (Baartman et al. (2020)).

Er bestaat niet zoiets als ‘het perfecte aantal’ aan datapunten voor een high-stakes beslissing. Het aantal datapunten dat nodig is om een robuuste beslissing te kunnen nemen is namelijk afhankelijk van wanneer er saturatie optreedt. Dit betekent dat een extra datapunt niets meer verandert aan het totaalbeeld over de student, en daarmee aan de beslissing die wordt genomen. Saturatie is een subjectief gegeven. Je kunt niet van tevoren precies bepalen wanneer saturatie optreedt. Wel laat onderzoek zien dat de meeste opleidingen 8-10 datapunten per competentie gebruiken voor een high-stakes beslissing (Baartman et al. (2020)). En dat studenten vaak meer datapunten verzamelen dan nodig is om saturatie te bereiken (Jong et al. (2019)). Belangrijk is ook dat er niet teveel datapunten zijn, omdat dit zorgt voor een hoge werkdruk bij de docenten en studenten weinig tijd hebben om iets met de feedback op de datapunten te doen. Maar te weinig datapunten zorgt weer voor een onvoldoende beeld om een robuuste beslissing te kunnen nemen.

Het nemen van een high-stakes beslissing

Aangezien er veel afhangt van een high-stakes beslissing, is het van belang dat de beslisprocedure goed is ingericht, zodat de procedure betrouwbaar en geloofwaardig is (Heeneman et al. (2021)). De beslissing zou geen verassing moeten zijn voor de student. Een high-stakes beslissing is gebaseerd op een uitgebreid portfolio met daarin de verzamelde datapunten en feedback. Het portfolio laat ontwikkeling zien over een langere tijdsperiode (Heeneman et al. (2021)). Omdat datapunten en feedback zowel kwantitatieve (cijfers, scores, percentages) als kwalitatieve informatie (narratieve feedback) kunnen bevatten, kan de beslissing niet worden genomen op basis van een rekenkundige formule. Een high-stakes beslissing vraagt een menselijke interpretatie van de informatie in het portfolio. Dit betekent dat de beslissers (samen) experts moeten zijn op het gebied van de leeropbrengsten, en dat zij goed getraind moeten zijn. Vaak wordt gebruik gemaakt van bijvoorbeeld rubrics om de interpretatie van de datapunten en feedback te vergemakkelijken. Een besliscommissie met meerdere personen zorgt voor een collectieve interpretatie en beslissing, op basis van alle beschikbare informatie. Een commissie kijkt naar de patronen in de datapunten en feedback (presteert deze student over de grote lijn positief, of zijn er vreemde afwijkingen te zien?), dit kan ervoor zorgen dat bepaalde patronen aan het licht komen die een enkele beslisser niet zou zien (Wilkinson et al. (2011)). Onderzoek laat zien dat de kwaliteit van (narratieve) feedback en de kwaliteit van de reflectie door de student van invloed zijn op het beslisproces (Jong et al. (2022)). Als beslissers bijvoorbeeld heel verschillende feedback zien in het portfolio van een student, dan gaan zij op zoek naar extra informatie in het portfolio, of concluderen ze dat het portfolio lastig te beoordelen is en door de commissie besproken moet worden.

Een high-stakes beslissing wordt bij programmatisch toetsen genomen door een besliscommissie. Deze commissie bestaat over het algemeen uit twee of meer beslissers, onder wie soms professionals uit het werkveld. Soms heeft ook de coach een rol in het nemen van de beslissing. Het voordeel hiervan is dat de coach rijke informatie heeft over de student, die kan worden meegenomen in het nemen van de beslissing. Het gevaar is dat de relatie tussen de coach en de student in gevaar kan komen, doordat de coach bijvoorbeeld minder eerlijke feedback durft te geven of de student niet open durft te zijn over ontwikkelpunten ((Schut et al. (2020)). Om toch de rijke informatie die een coach kan bieden mee te nemen in het beslisproces, wordt soms gevraagd of de coach kan bevestigen dat alle gecombineerde informatie in het portfolio een compleet beeld geeft van de student. Of de coach wordt gevraagd om een aanbeveling te geven voor de beslissing. Meer overwegingen over het wel/niet meenemen van de coach bij het ontwerpen van de beslisprocedure lees je hier.

Kwaliteit van high-stakes beslissingen: saturatie, triangulatie en intersubjectiviteit

Bij programmatisch toetsen wordt de robuustheid (validiteit en betrouwbaarheid) van een high-stakes beslissing gevormd door saturatie, triangulatie en intersubjectiviteit. Saturatie werd hierboven al genoemd en heeft te maken met het aantal datapunten. De besliscommissie bekijkt, interpreteert en weegt informatie uit de datapunten totdat saturatie van informatie is bereikt (Jong et al. (2022)). Het aantal datapunten/low-stake momenten dat nodig is voor saturatie van informatie kan verschillen per student. Triangulatie betekent dat informatie uit veel verschillende bronnen wordt gecombineerd bij het nemen van een beslissing (Cook et al. (2016)). Bij programmatisch toetsen gebeurt dit doordat informatie uit verschillende datapunten wordt samengenomen (geaggregeerd) tot een beslissing over de beoogde leeropbrengsten. Die datapunten bevatten zowel kwantitatieve als kwalitatieve informatie (Jong et al. (2022)). Intersubjectiviteit betekent dat de high-stakes beslissing wordt gebaseerd door meerdere mensen (de besliscommissie) op basis van informatie uit veel verschillende datapunten en feedback van veel verschillende stakeholders op die datapunten. Eén beoordeling van een datapunten door één persoon in één verschillende context kan subjectief zijn. Intersubjectiviteit betekent dat veel van zulke subjectieve beoordelingen tezamen leiden tot een gedeelde beslissing (en dus een betrouwbare en robuuste beslissing).

References

Baartman, L. K. J., Schilt-Mol, T. van, & Vleuten, C. P. M. van der. (2020). Programmatisch toetsen: Voorbeelden en ervaringen uit de praktijk. Hogeschool Utrecht.

Cook, D. A., Kuper, A., Hatala, R., & Ginsburg, S. (2016). When assessment data are words: Validity evidence for qualitative educational assessments. Academic Medicine, 91(10), 1359–1369.

Heeneman, S., Jong, L. H. de, Dawson, L. J., Wilkinson, T. J., Ryan, A., Tait, G. R., Rice, N., Torre, D., Freeman, A., & Vleuten, C. P. van der. (2021). Ottawa 2020 consensus statement for programmatic assessment–1. Agreement on the principles. Medical Teacher, 43(10), 1139–1148.

Jong, L. de, Bok, H., Kremer, W., & Van der Vleuten, C. (2019). Programmatic assessment: Can we provide evidence for saturation of information? Medical Teacher, 41, 1–5. https://doi.org/10.1080/0142159X.2018.1555369

Jong, L. H. de, Bok, H. G., Schellekens, L. H., Kremer, W. D., Jonker, F. H., & Vleuten, C. P. van der. (2022). Shaping the right conditions in programmatic assessment: How quality of narrative information affects the quality of high-stakes decision-making. BMC Medical Education, 22(1), 1–10.

Schut, S., Heeneman, S., Bierer, B., Driessen, E., Tartwijk, J. van, & Der Vleuten, C. van. (2020). Between trust and control: Teachers’ assessment conceptualisations within programmatic assessment. Medical Education, 54(6), 528–537.

Van der Vleuten, C. P. M., Schuwirth, L. W. T., Driessen, E. W., Dijkstra, J., Tigelaar, D., Baartman, L. K. J., & Tartwijk, J. van. (2012). A model for programmatic assessment fit for purpose. Medical Teacher, 34(3), 205–214. https://doi.org/10.3109/0142159X.2012.652239

Wilkinson, T. J., Tweed, M. J., Egan, T. G., Ali, A. N., McKenzie, J. M., Moore, M., & Rudland, J. R. (2011). Joining the dots: Conditional pass and programmatic assessment enhances recognition of problems with professionalism and factors hampering student progress. BMC Medical Education, 11(1), 1–9.