5.2. Pretestprocedure
De pretestprocedure heeft tot doel om de bruikbaarheid van items te bepalen om vervolgens
vast te kunnen stellen welke items in aanmerking komen voor opname in de definitief
samen te stellen varianten van de doorstroomtoets. Bruikbaarheid betekent dat de items
voldoende onderscheidend zijn (d.w.z. een voldoende positieve a-parameter hebben en
niet te moeilijk en niet te makkelijk zijn (d.w.z. een representatieve b-parameter
hebben). Daarnaast mag de doorstroomtoets ook makkelijke en moeilijke opgaven bevatten
om zo goed onderscheid te kunnen maken aan de buitenranden van de vaardigheidsverdeling
en rekening houdend met dat de te onderscheiden doorstroomniveaus liggen enkele standaarddeviaties
uit elkaar, en is dus ook een goede spreiding in moeilijkheid nodig.
De pretest kan op twee manieren worden uitgevoerd:
-
1. (eerste afname van items los van de operationele afname):
De toetsaanbieder biedt scholen een vrijwillige proeftoets aan, waarin de nieuw geconstrueerde
items zijn opgenomen.
-
– Doel A (basis-kwaliteitscontrole):
In de meeste gevallen zal het doel van de proeftoets zijn om de kwaliteit en werking
van de items in de praktijk te onderzoeken. Dit betreft zowel het – in een minder
high-stakes situatie – onderzoeken van de moeilijkheidsgraad en het onderscheidend
vermogen van de items, als het onderzoeken van de kwaliteit van de afleiders. Na de
proeftoets selecteert de toetsaanbieder de items die in aanmerking komen voor gebruik
in een operationele setting. De gegevens worden alleen gebruikt om items te selecteren.
Voor parameterschattingen na de afname voor de vaardigheidsschattingen ten behoeve
van het leerlingrapport worden deze data niet gebruikt. Voor dit eerste scenario gelden
minder stringente eisen voor de steekproefgrootte en het steekproefkader.
-
– Doel B (additionele dataverzameling ten behoeve van itemparameterschattingen):
Het is ook mogelijk een pretest te gebruiken om data te verzamelen die wel gebruikt
wordt voor itemparameterschattingen ten behoeve van de vaardigheidsschattingen tijdens
de afname. Dat is vooral relevant wanneer de afname niet zo ingericht kan zijn dat
van te voren bepaald kan worden dat de opgaven door voldoende leerlingen gemaakt zullen worden. Bij een MST of een lineaire toets is dat vaak wel mogelijk,
echter bij een CAT kan dat lastiger zijn. Zeker extreme opgaven worden beperkt geselecteerd
door het algoritme. Ook als een CAT of MST relatief weinig respondenten heeft kunnen
er relatief veel opgaven zijn met minder dan 500–1.000 observaties. Als deze opgaven
bij een leerling in de afname zitten, dan moeten er ook voor deze opgaven voldoende
gegevens zijn om de parameters te kunnen schatten. Onder voorwaarden die beschreven
worden onder het steekproefkader kan de data van de pretest ook gebruikt worden om
bij de afname deze opgaven te schalen. Deze voorwaarden zijn strenger dan bij Doel
A. Het is ook mogelijk om doel B na te streven bij MST of lineaire toetsen, waarbij
dan ook de strengere voorwaarden gelden.
-
2. (eerste afname binnen de operationele afname; zaaien, d.w.z.):
Opgaven uitproberen als onderdeel van een werkelijke afname waardoor de opgave in
dezelfde omstandigheden gemaakt wordt als waarin ze toegepast moeten worden): De toetsaanbieder
zaait de nieuwe items in de operationele versie van de doorstroomtoets. Wanneer uit
de pretestprocedure blijkt dat de nieuwe items bruikbaar zijn, mag de toetsaanbieder
deze direct mee laten tellen voor de berekening van het toetsadvies en/of de score
op de referentieniveaus. Voor een leerling mag het niet herkenbaar zijn of een vraag
wel of niet meetelt. Voor dit tweede scenario gelden strengere eisen voor het minimaal
vereiste aantal observaties. Als aan alle eisen voldaan wordt, maar alleen te weinig
observaties per opgave waargenomen worden, hoeft dit niet tot een onvoldoende beoordeling
te leiden: het is dan mogelijk de resultaten verkregen onder scenario 2 te gebruiken
voor doel A van scenario 1 mits het aantal observaties minimaal gelijk is als in dat
geval vereist is.
Tevens geldt dat voor de berekening van het toetsadvies en de berekening van de score
op de referentieniveaus alleen gebruik gemaakt mag worden van gekalibreerde (pretest)items
die onderwijskundig en psychometrisch goed functioneren. Wanneer de toetsaanbieder
er toch voor kiest om, om andere redenen, minder goed functionerende items mee te
laten tellen, dan dient de toetsaanbieder dit te beargumenteren in de wetenschappelijke
verantwoording van de doorstroomtoets.
De pretestprocedure bestaat in beide scenario’s uit drie stappen: 1) Steekproefkader
en samenstelling steekproef vaststellen (§ 5.2.1), 2) Kalibratie en kwaliteit van
items vaststellen met de verzamelde pretestdata (§ 5.2.2), en 3) Definitieve doorstroomtoets
samenstellen (§ 5.2.3).
5.2.1. Steekproefkader en samenstelling steekproef
De onderwijskundig positief beoordeelde nieuw geconstrueerde items worden gepretest
volgens de kwaliteitseisen voor het steekproefkader en de samenstelling van de steekproef.
Kwaliteitseisen
Code
|
Vragen
|
Mogelijke
antwoorden
|
N1.1
|
Is de gebruikte steekproef van voldoende kwaliteit, gezien het doel van de pretest?
|
ja/nee
|
N1.1a
|
Is de steekproef groot genoeg?
|
ja/nee
|
N1.1b
|
Is de steekproef relevant?
|
ja/nee
|
N1.2
|
Heeft de pretest plaatsgevonden conform het intern dataverzamelingsdesign of het gecombineerd
dataverzamelingsdesign; en is het dataverzamelingsdesign van de pretest adequaat?
|
ja/nee
|
N1.3
|
Is, in het geval van open opgaven in een pretest, de beoordelaarsovereenstemming gegeven?
|
ja/nee/n.v.t.
|
Toelichting N1.1:
De beantwoording van deze vraag is afhankelijk van het doel van de steekproef. Hierboven
is al verwezen naar de twee scenario’s die van toepassing zijn. De vraag naar de kwaliteit
van de steekproef is verder opgedeeld naar de grote en de relevantie van de steekproef.
Er is automatisch voldaan aan kwaliteitseis N1.1, wanneer is voldaan aan de kwaliteitseisen
N1.1a en N1.1b.
Toelichting N1.1a:
Als onder scenario 1doel A wordt nagestreefd (bepalen of een opgave van voldoende kwaliteit is om opgenomen
te mogen worden in de operationele doorstroomtoets) is het benodigde aantal leerlingen
beperkt. Uit een relatief beperkt aantal observaties valt immers te achterhalen of
een opgave goed genoeg functioneert om opgenomen te worden in de afname. De focus
moet hierbij vooral liggen op het onderscheidend vermogen van de opgave en de werking
van de afleiders in het geval van een meerkeuze-opgave. Om de kans te verkleinen dat
het onderscheidend vermogen bij de afname negatief blijkt te zijn is het verstandig
een redelijke ondergrens van de Rit-waarde of de geschatte a-parameter te kiezen.
De aanbieder is hier vrij in, maar dient wel aan te geven welk criterium gehanteerd
is (en waarom). In de situatie dat een bestaande itembank wordt uitgebreid c.q. wordt
ververst, wordt het aantal observaties als voldoende gezien wanneer iedere opgave
door minstens 200 leerlingen gemaakt is,. In de situatie dat er een geheel nieuwe
doorstroomtoets wordt gemaakt, geldt een minimum van 400 leerlingen. Uiteraard geven
meer gegevens meer zekerheid. Wanneer de steekproef op klassenniveau is samengesteld,
dient de aanbieder op adequate wijze rekening te houden met de intraklasse-correlatiecoëfficiënt
(ICC of ρ) en moet de aanbieder de steekproefgrootte ophogen op basis van de hoogte van de ρ
en het aantal leerlingen in de klas dat dezelfde opgaven maakt (m). De ρ kan worden
berekend aan de hand van de variantie binnen de klassen (sw2) en de variantie tussen
de klassen (sb2) met behulp van de formule: ρ = sb2 / (sb2 + sw2). Vervolgens kan
de vereiste steekproefgrootte op klassenniveau worden bepaald met de formule: Ntrekking
= Ndoel (1 + ρ (m – 1)).
Wanneer onder scenario 1doel B wordt nagestreefd, dan dient het aantal observaties hoger te zijn. Op het moment
van itemkalibratie t.b.v. de parameterschattingen voor de rapportage dienen dezelfde
aantallen behaald te worden als gespecificeerd staan onder scenario 2.
Onder scenario 2 worden de opgaven voor het eerst afgenomen direct onder operationele afnameconditie.
We gaan er hierbij van uit dat deze opgaven van tevoren onderwijskundig als kwalitatief
voldoende gezien worden. Als de psychometrische kenmerken dan ook goed zijn, dan onderscheiden
deze opgaven zich noch in onderwijskundig opzicht, noch in psychometrisch opzicht
van de andere opgaven in de toets. Omdat leerlingen er tijd en moeite in steken is
het terecht als deze items dan meetellen voor de rapportage. In dat geval kunnen deze
items tijdens de campagne bijgeschaald worden. Om items mee te laten tellen voor de
terugrapportage naar leerling moeten de itemparameters goed geschat worden. Daartoe
moeten er voldoende observaties per item zijn. Voor dichotoom gescoorde items geldt
bij een 2PL itemresponsemodel een minimum aantal van 1.000 observaties. Voor polytoom
gescoorde items geldt bij een 2PL itemresponsemodel een minimum aantal van 1.200 observaties.
Aanbieders mogen van deze aantallen afwijken, mits dit gedegen en volledig wordt onderbouwd.
Het is mogelijk dat de aanbieder ook onder scenario 2 alleen doel A van scenario 1
nastreeft. Het minimaal vereiste aantal observaties is dan gelijk aan dat bij doel
A van scenario 1. Dan tellen de opgaven niet mee in het leerlingrapport.
Voor alle items die meetellen voor de rapportage dienen de bovengenoemde aantallen
behaald te worden. Bij opgaven die bijvoorbeeld in een CAT of MST te weinig door het
algoritme geselecteerd worden, worden de aantallen niet altijd tijdens de afname gehaald.
In die gevallen mogen de gegevens van de pretest ook gebruikt worden voor de kalibratie
om die itemparameters te schatten. De genoemde aantallen observaties per opgave kunnen
dan gehaald worden met de som van de pretest-observaties en de afname-observaties.
Let wel dat dan ook aan andere steekproefeisen voldaan moet zijn aangaande representativiteit.
Gekloonde opgaven zijn in beginsel nieuwe opgaven, en worden zo ook beoordeeld. Wanneer
er sprake is van (zeer) kleine wijzigingen, zoals de aanpassing van een munteenheid
(van euro naar dollar), of de aanpassing van een naam (bijvoorbeeld ten behoeve van
inclusie), waarbij de opgave inhoudelijk hetzelfde blijft, dan kunnen dergelijke items
als onveranderd gezien worden. De toetsaanbieder dient dan wel duidelijk aan te geven
welke (inhoudelijke) aanpassing gedaan is, bij voorkeur met een rationale waaruit
blijkt waarom de aanpassing geen impact heeft.
Wanneer de gekloonde opgave in termen van relevantie en/of objectiviteit verandert
ten opzichte van het originele item, dan is er wel sprake van een nieuwe opgave. Meer
specifiek is er sprake van een nieuwe opgave wanneer:
-
– de gekloonde opgave een relatie heeft met een ander of gewijzigd leerdoel;
-
– de gekloonde opgave naar verwachting een andere of gewijzigde moeilijkheidsgraad heeft;
-
– de gekloonde opgave naar een ander of gewijzigd modelantwoord leidt.
Wanneer eerder al data verzameld zijn bij het item in een andere vorm dient ook bij
kleine wijzigingen het gekloonde item een nieuw label te krijgen.
Toelichting N1.1b:
De steekproef dient relevant te zijn voor de toepassing. Dit betekent dat de steekproef
van de pretest overeenkomstig dient te zijn met de populatie die de toets van de aanbieder
regulier afneemt.
Voor scenario 2, het zaaien in de afname, is dat relatief makkelijk in te richten
door de zaai-items verstandig op scholen in te zetten. Deze steekproefprocedure dient
door de aanbieder beschreven te worden. Een ander voordeel bij scenario 2 is dat de
afnamecondities per definitie identiek zijn aan reguliere afnamecondities zolang de
items niet specifiek als zaai-items te herkennen zijn.
In het geval van scenario 1 dient een aparte steekproef getrokken te worden. De eisen
aan deze steekproef en de afnamecondities verschillen voor doel A en doel B bij dit
scenario. Onder doel A is het aan te raden de steekproef sterk te doen lijken op toets-populatie.
Een variatie aan scholen is hierbij aan te raden, waarbij rekening gehouden dient
te worden met de variabelen in onderstaande tabel. Het is aan te bevelen minstens
twee niveaus van iedere variabele mee te nemen. Voor de variabele schoolweging geldt
een ondergrens van drie niveaus. Als scenario 1 doel B nagestreefd wordt, dan wordt
verwacht dat de afname zoveel mogelijk onder dezelfde (waarschijnlijk high-stakes)
condities plaats vindt. Er dient door de aanbieder beschreven te worden hoe dat zoveel
mogelijk bereikt wordt. Tevens dient aangetoond te worden dat de verdeling van de
steekproef goed gelijkend is aan de toets-populatie. Daarvoor mag de toets-populatie
van het voorgaande afnamejaar als referentie en steekproefkader gebruikt worden. Deze
populatie en steekproef dienen dan beschreven te worden op basis van de variabelen
en niveaus zoals beschreven in de onderstaande tabel.
Variabele
|
#N
|
Welke niveaus (NB: #N = aantal niveaus)
|
regio
|
4
|
noord, zuid, oost, west
|
urbanisatiegraad
|
3
|
G4 (de vier grootste gemeenten), G5-G37 (de 5 tot 37 grootste steden), >G37 (de overige
steden
|
schoolgrootte
|
3
|
aantal leerlingen: <100, 100–300, >300 leerlingen
|
schoolweging
|
5
|
gewichtscategorieën: <23 / 23–26,99 / 27–32,99 / 33–36,99 / ≥ 37
|
Onder scenario 1 wordt een positief antwoord op deze vraag gegeven wanneer aan de volgende vijf voorwaarden
is voldaan:
-
1) Op alle in de tabel genoemde variabelen zitten er op minimaal twee niveaus per variabele
en op minimaal drie niveaus van de variabele schoolweging gegevens in de steekproef;
-
2) Er is aangegeven hoe de steekproef getrokken is;
-
3) Er is aangegeven onder welke omstandigheden de data verzameld zijn;
-
4) Er is aangegeven hoe de steekproef zich verhoudt tot de landelijke populatiewaarden
van leerlingen in groep 8 met betrekking tot de in de tabel genoemde niveaus per variabele;
-
5) De steekproefgegevens over S(B)O scholen worden aanvullend separaat gerapporteerd
en verantwoord in lijn met de eigen populatie uit voorafgaande schooljaren.
Als bij drie (3) deze omstandigheden afwijken van de werkelijke afname wordt aangegeven
welke impact verwacht wordt en hoe daar in de procedure van de selectie van opgaven
voor de operationele afname rekening mee is gehouden.
Onder scenario 2 wordt een positief antwoord wordt op deze vraag gegeven wanneer aan de volgende twee
voorwaarden is voldaan:
-
1) De aanbieder toont aan dat de populatie voor de zaai-items niet structureel anders
is dan de populatie(s) van de rest van de opgaven.
-
2) Bij de observaties is een steekproefkader (c.q. een design van hoe de toetsboekjes,
de CAT toetsversies en/of de MST toetspaden met zaai-items en ankeropgaven worden
ingezet) gegeven met een beschrijving van de procedure waarmee de steekproef van observaties
tot stand is gekomen;
Toelichting N1.2:
In Scenario 1 doel A, wanneer de prestest alleen een rol speelt in het al dan niet
selecteren van de opgaven, en de bij de normering (definitieve) gebruikte parameters
bepaald worden op basis van de operationele afname, is deze eis niet van toepassing.
De kwaliteit van de pretest wordt dan alleen bepaald op basis van N1.1.
Wanneer er sprake is van Scenario 2 of van Scenario 1, doel B is het van belang dat de parameters per vaardigheid op dezelfde schaal liggen. Dat
geldt dus ook voor de zaai-items. In het geval van een CAT dienen de parameters van
de opgaven die de itembank vormen op dezelfde schaal te liggen. Om dat voor elkaar
te krijgen is het van belang dat er sprake is van een afnamedesign waarbij dit mogelijk
is. Wanneer de prestest gedaan wordt door middel van ‘zaai-opgaven’ in de afname dan
wordt aangeven hoe dat ‘zaai-design’ er uitziet. Dit design is meegegeven in de technische
verantwoording van de pretest en bevat ieder geval informatie over:
-
– het totaal aantal boekjes (‘booklets’);
-
– aantal observaties per boekje;
-
– het aantal items dat tussen de opgavenboekjes onderling overlapt;
-
– het aantal items dat de pretest verbindt met de bestaande schaal.
Met behulp van deze informatie kan worden bepaald of de boekjes aantoonbaar voldoende
‘gelinked’ zijn. Dat betekent dat er voldoende overlap in observaties tussen de verschillende
items en boekjes moet zijn. Daarvan is sprake wanneer de aanbieder laat zien dat het
plaatsen van de itemparameters van alle opgaven op dezelfde schaal als waar de meting
over gaat mogelijk is, meestal door middel van een verbonden design.
Wanneer de pretestdata zijn verzameld met een CAT is het niet zinvol om het hele onvolledige
design weer te geven, omdat iedere leerling dan in principe een unieke verzameling
items maakt. Het dient wel duidelijk te zijn op welke gegevens de linking en normering
gebaseerd zijn. Bij een MST of een lineaire afname is het meeleveren van het design
wel zinvol.
In het geval van een CAT is, net als bij de andere toetsvormen, aangegeven hoeveel
zaai-items een kandidaat kan krijgen, en hoe die opgaven toegewezen worden.
Ook moet duidelijk zijn op welke posities de verschillende opgaven ingezet zijn, zodat
door de toetsaanbieder op gedegen en complete wijze beargumenteerd kan worden op welke
wijze er rekening is gehouden met vermoeidheids- en/of volgorde effecten.
Toelichting N1.3: De kwaliteit van de niet geautomatiseerd gescoorde open opgaven wordt ook beïnvloed
door de beoordelaarsovereenstemming. In de pretest moet er bij niet geautomatiseerd
gescoorde open opgaven daarom ook beoordelaarsovereenstemmingsonderzoek worden uitgevoerd.
In het geval van Scenario 1 doel A moet aangegeven worden op basis van welke criterium
items vanwege een lage beoordelaarsovereenstemming niet meer opgenomen worden, en
wanneer opgaven wel opgenomen kunnen worden. Bij scenario 2 en bij scenario 1 doel
B moet aangegeven worden wat de impact is op de geschatte parameters.
Beslisregel: Om voor deze categorie van kwaliteitseisen een voldoende te kunnen krijgen,
dienen alle vragen met JA te worden beantwoord.
5.2.2. Kalibratie en kwaliteit van items
Na het verzamelen van de observaties voert de toetsaanbieder een kalibratie uit met
de verzamelde testdata. In het geval van eerder afgenomen opgaven (bij een itembank
of bij pretestgegevens) kan er een schaal gekalibreerd worden die op basis van de
afnamegegevens bestendigd moet worden. Op basis van de afnamegegevens kunnen de (goed
functionerende) zaai-items op de schaal geplaatst worden. Bij de beoordeling wordt
gekeken naar wat er in het verleden (vorige afname) gedaan is en wordt geëvalueerd
wat de plannen zijn voor bij de afname. Wanneer een aanbieder voor het eerst een afname
heeft, is de toelating voorlopig en kan deze na de eerste afname bevestigd worden
op basis van de resultaten bij deze afname, vergelijkbaar met hoe aanbieders met eerdere
afnames vooraf beoordeeld worden. In de kalibratie schat de toetsaanbieder de itemparameters,
zodat de kwaliteit van de met behulp van scenario1 of scenario2 gepreteste items kan
worden vastgesteld.
Kwaliteitseisen
Code
|
Vragen
|
Mogelijke
antwoorden
|
KA1
|
Zijn de itemparameters van de nieuwe items geschat met een bij de data passend psychometrisch
model?
|
ja/nee
|
KA2
|
Is er op gedegen en complete wijze beschreven dat de itemparameters van de geselecteerde
gekalibreerde items toepasbaar zijn?
|
ja/nee
|
KA3
|
Worden beslisregels geëxpliciteerd om dekking van het inhoudelijke domein te waarborgen
per individuele afname?
|
ja/nee/n.v.t.
|
KA4
|
Is er een schatting gemaakt van de populatieparameters?
|
ja/nee
|
KA5
|
Zijn de metingen van de individuele leerlingen voldoende betrouwbaar om uitspraken
op individueel niveau te kunnen doen?
|
ja/nee
|
KA6
|
Is er aannemelijk gemaakt dat het gebruikte model past bij de data?
|
ja/nee
|
KA7
|
Bij gebruik van een 2PL IRT model, is er een indicatie gegeven van de lokale betrouwbaarheid
van de nieuwe items?
|
ja/nee
|
Toelichting KA1:
De toetsaanbieder schat van alle, in scenario 1, doel B of in scenario 2 gepreteste
items de moeilijkheidsgraad (p-waarde of een vergelijkbare parameter), het discriminerend
vermogen (Rir-waarde en Rar-waarde of vergelijkbare parameters) en, in het geval van
meerkeuzevragen de kwaliteit van de afleiders (a-waarde of een vergelijkbare parameter)
in een 2PL itemresponsemodel en met gebruik van hiertoe geëquipeerde software.
De toetsaanbieder selecteert vervolgens de items die psychometrisch gezien van voldoende
kwaliteit zijn om te kunnen gebruiken in de samen te stellen doorstroomtoets. Dat
betekent dat de toetsaanbieder op gedegen en complete wijze onderbouwt dat van de
geselecteerde items:
-
– de moeilijkheidsgraad passend is voor het meetdoel en de doelgroep (d.w.z. voor lineaire
toetsen vergelijkbaar met een p-waarde tussen de gokkans en 0.95 en voor adaptieve
toetsen passend bij de moeilijkheidsgraad van het betreffende design en/of toetspad);
-
– het discriminerend vermogen vergelijkbaar is met een Rit-waarde > 0.15, rekening houdend
met de beperkte vaardigheidsrange van de leerlingen in het geval van een adaptieve
toets;
-
– de kwaliteit van de afleiders, in het geval van meerkeuzevragen, vergelijkbaar is
met een a-waarde > 0.05;
-
– de interbeoordelaarsovereenstemming, in het geval van open vragen, vergelijkbaar is
met een interbeoordelaarsovereenstemmingscoëfficiënt > 0.70.
De toetsaanbieder verantwoordt op gedegen en complete wijze de keuze voor de geselecteerde
items die in aanmerking komen voor gebruik binnen de samen te stellen doorstroomtoets.
In het geval van scenario 1, doel A dient de aanbieder te verantwoorden op basis van
welke criteria opgaven toegelaten worden voor de operationele afname.
Toelichting KA2:
De toetsaanbieder beschrijft op gedegen en complete wijze dat de itemparameters van
de geselecteerde items toepasbaar zijn. Dit wordt gedaan door (1) aan te tonen dat
de itemparameters tussen verschillende afnamen of boekjes niet veranderen, en (2)
een bij de data en een bij de populatie passende DIF analyse (differential item functioning)
op itemniveau uit te voeren op bijvoorbeeld de achtergrondvariabele regio, waarbij
de itemparameterschattingen uit de verschillende boekjes in de pretest worden vergeleken.
Wanneer er sprake is van items met DIF, dient de toetsaanbieder aan te tonen dat dit
in overeenstemming is met de verwachting op basis van de relevante literatuur. Het ontbreken van de genoemde DIF-analyse kan resulteren in een onvoldoende voor
deze kwaliteitseis.
Toelichting KA3:
De theorie achter adaptief toetsen gaat er van uit dat een efficiëntere schatting
van het vaardigheidsniveau van de leerling kan worden verkregen als het aanbod van
de items steeds wordt aangepast aan de antwoorden van de leerling op voorafgaand items.
Derhalve dienen van dit type doorstroomtoets de beslisregels of de algoritmes voor
de samenstelling van de toets te zijn geëxpliciteerd. De toetsaanbieder dient op gedegen
en complete wijze te verantwoorden: (1) hoe de toets wordt gestart, (2) hoe de keuze
voor een volgend item wordt gemaakt, en (3) wanneer de toets wordt beëindigd. Naast
dat de beslisregels geëxpliciteerd dienen te zijn, is het belangrijk dat tevens beslisregels
geëxpliciteerd zijn om dekking van het inhoudelijke domein te waarborgen per individuele
afname. Dit houdt in dat indien er bijvoorbeeld vier verschillende domeinen van rekenen
worden bevraagd, de beslisregels van de adaptieve toets ervoor dienen te zorgen dat
ook uit alle domeinen opgaven worden afgenomen. Wanneer of de startprocedure, of de
selectieprocedure of de stopprocedure niet op gedegen en complete wijze is beschreven,
kan dit resulteren in een onvoldoende voor deze kwaliteitseis.
Toelichting KA4:
Bij KA4 wordt een positief oordeel gegeven wanneer de soort verdeling (normale verdeling,
of anders) en het gemiddelde, de standaardafwijking en hun schattingsfout (standard
error) op de vaardigheidsverdeling worden gerapporteerd, en er wordt verantwoord hoe
deze schattingen zijn verkregen. De toetsaanbieder geeft daarbij aan voor welke populatie(s)
deze parameters gegeven worden. Dit dient ieder geval gegeven te worden voor de reguliere
po-leerlingpopulatie.
Voor doorstroomtoetsen die eerder zijn afgenomen is deze schatting gebaseerd op de
daadwerkelijke populatievaardigheid van het voorgaande jaar. Bij een eerste afname
is dat niet mogelijk, en zal aangegeven moeten worden welke verwachtingen men hier
heeft. Dit gegeven wordt ook verwacht in de jaarlijkse rapportage na de afname, zoals
beschreven bij 5.3.
Bij KA4 wordt ook verwacht dat de aanbieder expliciet maakt welke aannames hij doet/gaat
doen.
Toelichting KA5:
De meting van de vaardigheid van een leerling moet voldoende betrouwbaar worden uitgevoerd.
Dit betekent dat het van belang is dat de schattingsfout (standard error) van iedere
geschatte vaardigheid beperkt is. Deze schattingsfout zal in de praktijk (waarschijnlijk)
niet voor iedere leerling even groot zijn. Daarom dient aangegeven te worden wat de
verdeling van de schattingsfouten is. Om de grootte van de schattingsfout op waarde
te kunnen schatten zal de standaardafwijking zoals deze gegeven wordt in KA4 als referentie
dienen. Gezien het belang van de classificaties, moet aangetoond worden dat de schattingsfout
rond ieder van de cesuurpunten van de referentieniveauschalen correspondeert met een
klassieke betrouwbaarheidscoëfficiënt > 0,70.
De eis van de minimale betrouwbaarheid (de manier om de schattingsfout van de persoonsparameters
in te schatten) wordt op drie manieren beoordeeld:
-
– Is er een gedegen en complete beschrijving van de procedure, waaruit blijkt dat de
betrouwbaarheid op de juiste manier is berekend?
-
– Is de hoogte van de betrouwbaarheid rond de cesuurpunten van de referentieniveaus
groter dan 0,70?
-
– Is de hoogte van de betrouwbaarheid van de schaal waarop de toetsadviezen gegeven
worden minimaal 0,80?
Toelichting KA6:
Alle gebruikte modellen werken met aannames en voorwaarden waaraan voldaan moet worden,
wil het model bruikbaar zijn. In de landelijke normering zal het 2PL gebruikt worden
zodat voldoende moet worden aangetoond dat de verkregen data voldoende past bij de
voorwaarden die bruikbaarheid van het model vereist. Dit betreft de veronderstelling
van (1) unidimensionaliteit, (2) lokaal stochastische onafhankelijkheid, en (3) de
passing van de data bij de gebruikte parameterschattingen. Onder unidimensionaliteit
wordt een eigenschap van een schaal verstaan wanneer de items in een toets dezelfde
vaardigheid meten. Met elke willekeurige subset van items uit de gekalibreerde itembank
kan dezelfde onderliggende vaardigheid worden vastgesteld. Ook onderzoek naar DIF
wordt hierbij als onderbouwing gezien. Hier zijn diverse maten en onderzoeken mogelijk,
waarbij de toetsaanbieder hier met de juiste motivering aangeeft hoe aan de voorwaarden
voldaan is. Naast statistische passingsmaten is het ook mogelijk gebruik te maken
van bij de data en het psychometrisch model passende robuustheidsmaten.
Toelichting KA7:
Het is van belang dat de aangeboden opgaven voldoende onderscheidend zijn. In het
geval van een itembank zullen items met weinig onderscheidend vermogen zelden of nooit
aangeboden worden. Deze items vormen daarmee een overschatting van de vulling van
de bank in aantallen opgaven. In het geval van een lineaire toets of een MST, is het
onwenselijk dat een leerling tijd besteed aan opgaven met een extreem laag gewicht.
Om een positief oordeel op deze vraag te krijgen wordt aangetoond dat alle opgaven
een voldoende onderscheidend vermogen hebben. Dat wordt aangetoond door te laten zien
dat het onderscheidend vermogen van de opgaven in de bank of toets niet kleiner is
dan 10% van het gemiddelde onderscheidend vermogen.
Beslisregel: Om voor deze categorie van kwaliteitseisen een voldoende te kunnen krijgen,
dienen alle vragen met JA te worden beantwoord.
5.2.3. Toetssamenstelling
Na afronding van de kalibratie van de nieuwe items, stelt de toetsaanbieder de definitieve
doorstroomtoets samen.
Kwaliteitseisen
Code
|
Vragen
|
Mogelijke
antwoorden
|
T1
|
Bevat de doorstroomtoets voor de terreinen Nederlandse taal en rekenen in ieder geval
vragen met een moeilijkheidsgraad tussen de cesuur van referentieniveau 1F en 2F/1S?
|
ja/nee
|
T2
|
Bevat de doorstroomtoets het door het CvTE voorgeschreven minimaal aantal gezamenlijke
ankeritems voor de wettelijk verplichte terreinen Nederlandse taal en rekenen?
Is de volledige subset van gezamenlijke ankeritems opgenomen in (de varianten van)
de doorstroomtoets?
Zijn de gezamenlijke ankeritems op de in de Regeling Beoordelingsnormen Doorstroomtoetsen po beschreven wijze opgenomen in de doorstroomtoets?
|
ja/nee
ja/nee
|
T3
|
Bestaat een papieren toets of een lineaire digitale toets jaarlijks vrijwel uit nieuwe
items voor de wettelijk verplichte terreinen Nederlandse taal (domeinen Lezen en Taalverzorging)
en rekenen, met uitzondering van de items van het gezamenlijk anker?
|
ja/nee/n.v.t.
|
T4
|
Heeft de itembank van een CAT een omvang van minimaal 6x het aantal items van een
maximale operationele toetsversie, waarbij jaarlijks tussen de 20% en 30% van de items
wordt ververst?
|
ja/nee/n.v.t.
|
T4.1
|
Is er, in het geval van een MST die bestaat uit meerdere lagen van modules (c.q. routes),
sprake van een adequate verversingsstrategie
a. … voor niet geselecteerde items?
b. … voor items met discrepanties in parameters in het kalibratiedesign en de voorlaatste
operationele fase?
c. … voor items die uitgelekt lijken?
d. … voor items die over jaargangen heen anders functioneren?
|
ja/nee/n.v.t.
ja/nee/n.v.t.
ja/nee/n.v.t.
ja/nee/n.v.t.
|
Toelichting T1: Voor zowel een papieren als een digitale lineaire doorstroomtoets geldt dat de toets
voor de terreinen Nederlandse taal en rekenen in ieder geval vragen moet bevatten
die inhoudelijk aansluiten bij de referentieniveaus 1F en 2F/1S en die een moeilijkheidsgraad
tussen de cesuur van referentieniveau 1F en 2F/1S hebben. In geval van CAT is de itemselectie
geoptimaliseerd rond de opeenvolgende vaardigheidsschattingen. Er dient te worden
voldaan aan de inhoudelijke randvoorwaarden, terwijl de lokale betrouwbaarheid rond
de cesuren van de referentieniveaus en de toetsadviescategorieën hoog genoeg is.
Voor een CAT geldt dat de itembank voldoende groot moet zijn. Dat wil zeggen dat er
een gesloten itembank is van minimaal zes (6) keer de maximale
toetslengte per te toetsen domein.
Toelichting T2a: De door het CvTE toegewezen subset van gezamenlijke ankeritems is opgenomen in (de
varianten van) de doorstroomtoets.
Toelichting T2b: De items van de verplicht op te nemen subsets van het gezamenlijk anker moeten op
een zodanige wijze over de toets worden verspreid, dat de positie in de toets zo min
mogelijk invloed op de prestatie van de leerling heeft en de ankeritems qua lay-out
en tekstuele vormgeving niet als opvallend afwijkend in de toets herkenbaar zijn,
een en ander zoals gespecificeerd in de Regeling Beoordelingsnormen Doorstroomtoetsen po.
Toelichting T3: Een papieren toets of een lineaire digitale toets bestaat jaarlijks vrijwel uit nieuwe
gekalibreerde items voor de wettelijk verplichte domeinen Nederlandse taal en rekenen,
met uitzondering van de items van het gezamenlijk anker.
Toelichting T4 / T4.1:
In het geval van een MST op basis van een itembank die bestaat uit meerdere lagen
van modules (c.q. routes) of in het geval van een CAT, moet er sprake zijn van een
adequate verversingsstrategie, en de verversing moet op itemniveau gedocumenteerd
zijn Daarbij geldt:
-
a. De aanbieder hanteert jaarlijks een adequate verversingsstrategie voor de opgaven
van de itembank van een MST of een CAT. De toetsaanbieder geeft op gedegen en complete
wijze aan hoeveel procent van de opgaven is ververst.
-
b. Items die uitgelekt lijken, moeten verwijderd worden. De toetsaanbieder geeft op gedegen
en complete wijze aan hoeveel items er vermoedelijk zijn uitgelekt en hoeveel van
deze items uit de itembank zijn verwijderd.
-
c. Items die over de jaren heen andere itemparameters hebben, moeten verwijderd worden.
De toetsaanbieder geeft op gedegen en complete wijze aan hoeveel items er veranderende
itemparameters hebben en hoeveel van deze items uit de itembank zijn verwijderd.
De punten b en c kunnen onderzocht worden met een statistische toets voor DIF en/of
met een statistische toets voor Item Parameter Drift (IPD).
|
|
Aantal gevonden
|
Aantal verwijderd uit itembank
|
b.
|
Items die uitgelekt lijken
|
|
>90%
|
c.
|
Items die over jaargangen heen anders functioneren
|
|
>90%
|
De aanbieder verantwoordt op gedegen en complete wijze hoe de aantallen in de kolom
‘Aantal gevonden’ zijn bepaald. Van de gevonden afwijkingen dient in hetzelfde jaar
minimaal 90% aantoonbaar te zijn verwijderd uit de itembank.
Om het gebruik van een adaptieve doorstroomtoets aantrekkelijk te houden, dient kwaliteitseis
T4.1 te worden gelezen in termen van: ‘het onderbouwen en motiveren van de gemaakte
keuzes’.
Beslisregel: Om voor deze categorie van kwaliteitseisen een voldoende te kunnen krijgen,
dienen alle van toepassing zijnde vragen met JA te worden beantwoord.