Programmatisch toetsen als ontwerpvraagstuk

Programmatisch toetsen is een concept, geen recept (Baartman et al. (2020)). Dit betekent dat elke opleiding die een onderwijsontwerp wil maken gebaseerd op de principes van programmatisch toetsen, nog allerlei ontwerpkeuzes moet en kan maken bínnen die principes. Die keuzes moeten passen binnen de context van die specifieke opleiding. Zo moeten ontwerpkeuzes bijvoorbeeld passen bij de visie op onderwijs/leren van de opleiding, het beroep waartoe wordt opgeleid en het type studenten en docenten dat bij de opleiding betrokken is. In onderzoek naar het ontwerpen van leeromgevingen worden deze keuzes ontwerpbare elementen genoemd (Bouw et al. (2021)). Ontwerpbare elementen gaan over inhoudelijke, ruimtelijke, instrumentele, sociale en temporele aspecten van de onderwijsomgeving die je kunt ontwerpen. Het zijn de knoppen waar je aan kunt draaien in het onderwijsontwerp. Op deze pagina wordt ingegaan op mogelijke ontwerpkeuzes en hoe je dit kunt aanpakken.

Backwards design

Backwards design is een ontwerpmethode waarbij het ontwerpen van het onderwijs begint bij het einde, namelijk de beoogde leeropbrengsten. Vanuit daar wordt terug geredeneerd naar hoe je deze beoogde leeropbrengsten het best kunt beoordelen, wat hierbij passende datapunten zijn, wat goede leeractiviteiten zijn en welke materialen en mensen je hiervoor nodig hebt (zie Vernieuwenderwijs). Het toepassen van backwards design als ontwerpmethode kan op verschillende niveaus. Zo kan het betrekking hebben op een enkele les of een onderwijsperiode, maar zeker ook op het ontwerpen van programmatisch toetsen. Hieronder wordt kort omschreven hoe backwards design eruit ziet voor het ontwerpen van de datapunten bij programmatisch toetsen (Biemond en Baartman, 2021). Lees voor meer gedetailleerde informatie het volledige artikel (Backward design bij programmatisch toetsen: Professioneel begeleiden) of bekijk deze kennisclip van Vernieuwenderwijs over de ontwerpfunctie van programmatisch toetsen.

Wanneer je bij programmatisch toetsen het geheel aan datapunten wilt ontwerpen aan de hand van backwards design dan begin je bij het bepalen van de beoogde leeropbrengsten, die vaak worden afgeleid van het landelijk beroeps-/opleidingsprofiel. Vanuit deze leeropbrengsten wordt het aggregatieniveau vastgesteld. Hierbij wordt bepaald of er bij de beslismomenten gekeken wordt naar het niveau van de totale beroepsbekwaamheid, het niveau van competenties of het niveau van iedere leeruitkomst. Er moet dus een afweging gemaakt worden tussen één holistisch besluit waarbij bepaalde competenties elkaar kunnen compenseren of een besluit op basis van het behalen van specifieke leeruitkomsten (met mogelijk risico op een afvink cultuur als de leeruitkomsten te specifiek en talrijk zijn).

Vervolgens kan het aantal beslismomenten worden vastgesteld en bepaald worden over welke inhoud een besluit wordt genomen tijdens welk beslismoment. Opleidingen kunnen ervoor kiezen alle competenties terug te laten komen in ieder beslismoment of om deze te verdelen over de beslismomenten. Wanneer dit is vastgesteld kan bepaald worden wanneer een student het beslismoment heeft behaald. Moet de student hiervoor bijvoorbeeld alle competenties beheersen of mogen er ook nog zwakkere punten zijn? Wanneer dit duidelijk is kan er bepaald worden welke informatie nodig is om deze beslissing te nemen. Of met andere woorden: welke datapunten kunnen informatie geven over deze competenties? Een datapunt kan informatie geven over meerdere competenties. In het ontwerp wordt bepaald hoeveel en welke mix aan datapunten nodig is om een robuuste beslissing te kunnen nemen.

Belangrijkste ontwerpkeuzes binnen programmatisch toetsen

Hoewel er consensus bestaat over de theoretische principes die als basis dienen voor het ontwerp van programmatisch toetsen, maken opleidingen verschillende specifieke ontwerpkeuzes binnen deze principes, passend bij hun eigen context. In deze paragraaf wordt een aantal belangrijke ontwerpkeuzes beschreven, zoals die zijn gebleken uit literatuur en praktijkervaringen.

1. Samenstellen van een mix van datapunten

Geen enkel datapunt kan volledig dekkend zijn voor alle complexe vaardigheden of competenties waarover je een beslissing wilt nemen en waarop je ontwikkeling wilt monitoren. Er is daarom een mix van verschillende typen datapunten nodig, en in het ontwerp moet je een keuze maken voor het type en aantal datapunten. Een mix van datapunten kan gemaakt worden op basis van:

Het soort datapunt, zoals het maken van een beroepsproduct, presentatie of reflectieverslag.
Het perspectief door wie het datapunt bekeken wordt en door wie feedback wordt gegeven, bijvoorbeeld door de praktijk, een docent of medestudent.
De context waarin opdrachten of beroepshandelingen worden uitgevoerd, zoals verschillende doelgroepen, werkomgevingen, of variatie in complexiteit.

Het is afhankelijk van de beoogde leeropbrengsten hoeveel datapunten en wat voor soort datapunten nodig zijn. Zo kan het opnemen van lessen binnen een lerarenopleiding een verplicht datapunt zijn omdat dit essentieel wordt geacht om een besluit te kunnen nemen over de onderwijsbevoegdheid van een student (Baartman et al., 2022). Wanneer vak-/beroepskennis wordt gezien als een belangrijk deel van de competentie van studenten, dan kunnen kennistoetsen passende datapunten zijn.

Een andere belangrijke ontwerpkeuze als het gaat om de datapunten is de vraag of datapunten “verplicht” zijn, of dat de student zelf passende datapunten kiest en verzamelt. In het geval van verplichte datapunten moeten alle studenten die datapunten verzamelen, en ligt het curriculum dus min of meer vast. Verplicht betekent in dit geval niet dat de student die datapunten ook moet “halen”, want aan datapunten hangt nooit een zak/slaag beslissing. Naast verplichte datapunten is een mogelijke ontwerpkeuze om te kiezen voor vrije datapunten, waarbij studenten zelf mogen bepalen hoe zij de beoogde leeropbrengsten willen ontwikkelen en aantonen. Dit doet een groter beroep op de zelfregulatievaardigheden van studenten. Redenen om te kiezen voor vrije datapunten kunnen zijn: grote verschillen tussen beroepen/specialisaties in de beroepspraktijk en daarmee grote verschillen tussen studenten in wat zij doen op de stage/werkplek, en recht doen aan verschillen tussen studenten in bijvoorbeeld voorkennis en eerdere ervaringen.

2. Datapunten benutten voor leren en ervoor zorgen dat studenten dit ook zo ervaren

Binnen programmatisch toetsen wordt op basis van een enkel datapunt geen zak-/slaagbeslissing genomen zodat studenten de ruimte hebben om fouten te mogen maken en de focus komt te liggen op ontwikkeling in plaats van het behalen van toetsen. Echter blijkt dit in de praktijk niet altijd zo te werken: studenten ervaren datapunten toch vaak als “summatief” of als dingen die ze moeten halen (Heeneman et al. (2015); Bok et al. (2013)). Om deze reden blijft het neerzetten van een leer- en feedbackcultuur in de praktijk lastig. De volgende ontwerpkeuzes binnen programmatisch toetsen kunnen hier wel aan bijdragen (voor meer verdieping over de leerfunctie, klik hier):

Het gebruik van narratieve feedback in plaats van cijfers kan een belangrijke rol spelen in het verschuiven van de focus van de studenten van “behalen” naar “leren”, omdat hierbij de nadruk wordt gelegd op leren en vooruitgang in plaats van op vergelijking, rangschikking en competitie (Schut, Heeneman, et al. (2020))
Het opnemen van voldoende datapunten is belangrijk voor het geven van ruimte aan doorgaande ontwikkeling (Baartman et al. (2020)). Het kiezen voor veel verschillende datapunten kan er ook voor zorgen dat beoordelaars eerlijker feedback durven geven, wat de kwaliteit van de feedback kan verhogen (Schut, Heeneman, et al. (2020)).
Studenten feedback laten ophalen uit verschillende contexten draagt bij aan hoe waardevol studenten de feedback vinden (Schut et al. (2018), Dannefer et al. (2012))
Het geven van keuzevrijheid in datapunten kan bijdragen aan het low-stake gevoel omdat studenten meer agency ervaren. Hierdoor weten studenten datapunten beter te benutten voor hun leerproces (Schut, Tartwijk, et al. (2020)).
Het verplicht stellen van het verzamelen van verschillende perspectieven op een datapunt (feedback door verschillende stakeholders) kan helpen bij het creëren van een cultuur waarin feedback vragen en ontvangen normaal is (Baartman et al. (2022)).

Het ontwerpen van een constante dialoog over het gebruik van feedback voor zelfsturing

Om de dialoog over het gebruik van feedback vorm te geven worden er veelal (medium-stake) momenten georganiseerd tussen studenten en docenten in de rol van coach/mentor. Dit kunnen individuele gesprekken of groepsgesprekken zijn waarin studenten samen met de coach (en medestudenten) bekijken waar zij nu staan in hun ontwikkelproces op basis van de verkregen feedback en wat goede vervolgstappen zouden zijn (Torre et al. (2021)). Vaak worden studenten in deze bijeenkomsten begeleid om steeds meer eigenaarschap over hun ontwikkelproces te nemen. Ontwerpkeuzes die hierbij passen zijn het stimuleren van studenten om zelf feedback te vragen, de medium-stake momenten zelf te plannen en te leiden, en studenten aan het woord te laten vóórdat de coach een mening geeft. Lees hier meer over de leerfunctie van programmatisch toetsen.

3. Het ontwerpen van de high stakes beslissingen

Ontwerpkeuzes met betrekking tot de high stakes beslissingen hebben te maken met de momenten waarom die beslissingen plaatsvinden, welke beslissers betrokken zijn, wat de rol is van de mentor/coach, en welke procedure de beslissers gebruiken om tot een besluit te komen. Vaak vinden high-stakes beslismomenten plaats na een kwart, half of heel jaar, waarbij de toegekende studiepunten variëren van 15 tot 60 EC (Baartman et al. (2020)). Het aantal high-stake beslismomenten en het moment waarop deze plaatsvinden kan afhankelijk zijn van de visie van de opleiding maar ook van bijvoorbeeld randvoorwaarden, zoals het kunnen voldoen aan de eisen van een lerarenbeurs. Daarnaast kan ook de doelgroep een rol spelen. Bijvoorbeeld aan het begin van de opleiding een groter aantal beslismomenten (over minder EC’s) om studenten te laten wennen aan programmatisch toetsen (Biemond en Baartman, 2021). Ook praktische overwegingen spelen een rol: idealiter zouden studenten wellicht op elk moment hun portfolio naar de besliscommissie kunnen sturen, maar in de praktijk wordt veelal gekozen voor een vast aantal momenten per jaar.

Ook het aantal datapunten is een belangrijke ontwerpkeuze, in dit geval het aantal datapunten dat noodzakelijk is om een robuuste beslissing te kunnen nemen. Dit is afhankelijk van wanneer er saturatie optreedt ((de2019programmatic?)). Het aantal datapunten dat wordt gebruikt om high-stakes beslissingen te nemen verschilt per opleiding maar veelal wordt uitgegaan van 8-10 datapunten per competentie (Baartman et al. (2020)). Meer over saturatie en overwegingen voor het aantal datapunten lees je op de pagina over de beslisfunctie.

Er zijn verschillende ontwerpkeuzes mogelijk als het gaat om de inrichting van de beslisprocedure. Voor een high-stake beslissing wordt vaak een besliscommissie opgesteld. Deze commissie bestaat over het algemeen uit twee of meer beslissers, onder wie soms professionals uit het werkveld. Een vaak toegepaste procedure houdt in dat twee beslissers het portfolio van de student onafhankelijk van elkaar bekijken en vervolgens gezamenlijk tot consensus proberen te komen over de beslissing. In het geval van twijfel wordt het portfolio van de student voorgelegd aan een ander commissielid of wordt het portfolio besproken in de commissievergadering. Een andere ontwerpkeuze is de coach wel/niet onderdeel uit te laten maken van besliscommissie. Enerzijds is de coach dicht betrokken geweest bij de ontwikkeling van de student en heeft de coach hier dus veel kennis over. Anderzijds blijkt uit onderzoek dat het voor coaches makkelijker is om eerlijke feedback te geven en een goede relatie op te bouwen met de student wanneer zij niet betrokken waren bij de eindbeslissing (Schut, Heeneman, et al. (2020)). Het betrekken van de coach bij de beslissing kan er bijvoorbeeld voor zorgen dat de coach zich gedwongen voelt een student positieve feedback te geven om hun goede relatie te behouden, of studenten voelen zich niet vrij om hun ontwikkelpunten te bespreken omdat ze bang zijn dat dit leidt tot een negatieve beslissing. Tussenoplossingen die veel worden toegepast is dat de medium-stakes beslissingen van de coach worden meegenomen in het portfolio, de coach een advies schrijft voor de besliscommissie of dat de coach wordt ingeschakeld als extra informatiebron wanneer de commissie twijfelt over de beslissing. Het advies van de coach weegt dan mee, maar is niet doorslaggevend voor de beslissing (Baartman et al. (2020)).

4. Inrichting van het (elektronisch) portfolio

Ook een passend – veelal elektronisch – portfolio is belangrijk voor het ontwerp van programmatisch toetsen. Studenten verzamelen hun datapunten in dit portfolio, en veelal geven feedbackgevers hun feedback op de datapunten ook via dit portfolio. Een goed werkend portfolio helpt zowel bij de leerfunctie als bij de beslisfunctie. Voor de leerfunctie is het bijvoorbeeld van belang dat een student en coach gemakkelijk een overzicht krijgen over alle verkregen feedback, bijvoorbeeld doordat alle (narratieve) feedback over een bepaalde leeropbrengst kan worden opgevraagd. Voor de beslisfunctie is het belangrijk dat het portfolio de besliscommissie ondersteunt in het aggregeren van informatie uit alle datapunten naar de leeropbrengsten waarover een beslissing wordt genomen. Het kan de besliscommissie helpen om patronen ze zien (zie beslisfunctie). Voor de beslisfunctie is het ook belangrijk dat datapunten veilig kunnen worden gearchiveerd, en dat een student bijvoorbeeld niet achteraf wijzigingen kan aanbrengen in datapunten of verkregen feedback.

References

Baartman, L. K. J., Baukema, H., & Prins, F. (2022). Exploring students’ feedback seeking behavior in the context of programmatic assessment. Assessment & Evaluation in Higher Education, 48, 1–15. https://doi.org/10.1080/02602938.2022.2100875

Baartman, L. K. J., Schilt-Mol, T. van, & Vleuten, C. P. M. van der. (2020). Programmatisch toetsen: Voorbeelden en ervaringen uit de praktijk. Hogeschool Utrecht.

Bok, H. G., Teunissen, P. W., Favier, R. P., Rietbroek, N. J., Theyse, L. F., Brommer, H., Haarhuis, J., Beukelen, P. van, Vleuten, C. P. van der, & Jaarsma, D. A. (2013). Programmatic assessment of competency-based workplace learning: When theory meets practice. BMC Medical Education, 13(1), 1–9.

Bouw, E., Zitter, I., & De Bruijn, E. (2021). Designable elements of integrative learning environments at the boundary of school and work: A multiple case study. Learning Environments Research, 24(3), 487–517.

Dannefer, E. F., Bierer, S. B., & Gladding, S. P. (2012). Evidence within a portfolio-based assessment program: What do medical students select to document their performance? Medical Teacher, 34(3), 215–220.

Heeneman, S., Oudkerk Pool, A., Schuwirth, L. W., Vleuten, C. P. van der, & Driessen, E. W. (2015). The impact of programmatic assessment on student learning: Theory versus practice. Medical Education, 49(5), 487–498.

Schut, S., Driessen, E., Van Tartwijk, J., Vleuten, C. van der, & Heeneman, S. (2018). Stakes in the eye of the beholder: An international study of learners’92 perceptions within programmatic assessment. Medical Education, 52(6), 654–663.

Schut, S., Heeneman, S., Bierer, B., Driessen, E., Tartwijk, J. van, & Der Vleuten, C. van. (2020). Between trust and control: Teachers’ assessment conceptualisations within programmatic assessment. Medical Education, 54(6), 528–537.

Schut, S., Tartwijk, J. van, Driessen, E., Vleuten, C. van der, & Heeneman, S. (2020). Understanding the influence of teacher–learner relationships on learners’92 assessment perception. Advances in Health Sciences Education, 25(2), 441–456.

Torre, D., Rice, N. E., Ryan, A., Bok, H., Dawson, L. J., Bierer, B., Wilkinson, T. J., Tait, G. R., Laughlin, T., Veerapen, K., et al. (2021). Ottawa 2020 consensus statements for programmatic assessment–2. Implementation and practice. Medical Teacher, 43(10), 1149–1160.