3.2. Kwaliteitseisen psychometrische aspecten observatie- en registratie-instrumenten
– type (I) en (II)
De beoordeling van de psychometrische aspecten van een observatie- en registratie-instrument
type (I) richt zich op de dataverzameling (paragraaf 3.2.1), de onderbouwing van de
kwaliteit van de resultaten / uitspraken van het instrument (paragraaf 3.2.2) en op
de interbeoordelaarsbetrouwbaarheid (paragraaf 3.2.3).
3.2.1. Dataverzameling
Deze paragraaf beschrijft de kwaliteitseisen voor de dataverzameling, met specifieke
aandacht voor de kwaliteitseis steekproef van leerlingen. Deze paragraaf 3.2.1 en de hierin opgenomen kwaliteitseis P.I.1 is van toepassing
op een observatie- en registratie-instrument type (I), indien de ontwikkelingsdoelen
in het instrument zijn verbijzonderd in inhoudelijk bijpassende indicatoren van observeerbare
(gedrags-)kenmerken, zoals verantwoord in de kwaliteitseisen O.I.3 en O.I.4 in paragraaf
2.2.1.
Code
|
Vragen
|
Mogelijke antwoorden
|
P.I.1
|
Beschrijft de aanbieder een representatieve steekproef van de indicatoren van observeerbare
(gedrags-)kenmerken (c.q. de observatie-categorieën) op basis waarvan de steekproefresultaten
kunnen worden gegeneraliseerd naar de doelgroep van het instrument, zoals gedefinieerd
bij kwaliteitseis O.I.5?
|
ja/nee/n.v.t.
|
Toelichting P.I.1:
Indien van toepassing dient de aanbieder te verantwoorden dat de steekproef groot
genoeg is, adequaat is gestratificeerd of gewogen naar betekenisvolle achtergrondvariabelen,
representatief is voor de indicatoren van observeerbare (gedrags-)kenmerken, en is
verzameld onder omstandigheden die redelijk vergelijkbaar zijn met de omstandigheden
waarin de gegevens in een operationele setting zouden worden verzameld. Indien van
toepassing, wordt de aanbieder gevraagd om effectgroottes aan te leveren ten behoeve
van de gemaakte vergelijking.
3.2.2. IJking van het instrument
Deze paragraaf beschrijft de kwaliteitseisen voor de ijking van het instrument, met
specifieke aandacht voor de kwaliteitseis niet relatieve normering. Deze paragraaf 3.2.2 en de hierin opgenomen kwaliteitseisen P.II.1 tot en met P.II.3
zijn van toepassing op een observatie- en registratie-instrument type (I), indien
de ontwikkelingsdoelen in het instrument zijn verbijzonderd in inhoudelijk bijpassende
indicatoren van observeerbare (gedrags-)kenmerken, zoals verantwoord in de kwaliteitseisen
O.I.3 en O.I.4 in paragraaf 2.2.1.
Het volgen van de ontwikkeling van de leerling met betrekking tot de verschillende
ontwikkelingsdoelen en eventuele tussentijdse mijlpalen heeft nadrukkelijk niet als
doel om waardeoordeel over het niveau van de leerling in relatie tot het niveau van
andere leerlingen uit te spreken. Het doel is om de leerkracht van informatie te voorzien
waarmee hij of zij zelfstandig en op basis van de eigen professionaliteit de specifieke
ontwikkelbehoefte van de individuele leerling kan signaleren en desgewenst een voor
die specifieke leerling passende interventie kan doen.
Om de gebruiker te kunnen ondersteunen in het bepalen van de mate waarin een individuele
leerling zich op zeker moment een specifiek ontwikkelingsdoel eigen heeft gemaakt,
dienen de indicatoren van observeerbare (gedrags-)kenmerken van de ontwikkelingsdoelen
en eventuele tussentijdse mijlpalen in het instrument te worden voorzien van ijkpunten
(c.q. referentiepunten). Dit noemt men ook wel het normeren van het instrument.
De leerkracht kan met behulp van het instrument op basis van observaties vaststellen
en volgen hoe individuele leerlingen gedurende de kleuterjaren zich ontwikkelen in
het aantal en soort bij hem of haar geobserveerde indicatoren van (gedrags-)kenmerken.
De ijkpunten van de indicatoren geven daarbij een objectiever beeld van de individuele
ontwikkeling, zonder dat de leerkracht een waardeoordeel over het niveau van de leerling
in relatie tot het niveau van andere leerlingen hoeft uit te spreken.
De ijkpunten worden bij de initiële ontwikkeling van het instrument door experts bepaald
en vervolgens periodiek geëvalueerd. Het ijken vindt plaats op grond van de inhoud
van het instrument, zoals verantwoord bij de kwaliteitseisen O.I.1 tot en met O.I.4
uit paragraaf 2.2.1 en derhalve niet op grond van de relatieve positie van het ene
kind ten opzichte van andere kinderen. Er zijn verschillende methodes om een instrument
te ijken, bijvoorbeeld de in de literatuur beschreven standaardbepalingsmethoden.
Deze methoden hebben gemeenschappelijk dat externe experts worden geraadpleegd en
dat deze experts op inhoudelijke en/of op kwantitatieve gronden tot voldoende overeenstemming
moeten komen over de te bepalen ijkpunten van de indicatoren van observeerbare (gedrags-)kenmerken
van de ontwikkelingsdoelen en eventuele tussentijdse mijlpalen in het instrument.
Code
|
Vragen
|
Mogelijke antwoorden
|
P.II.1
|
Is de keuze voor de ijkingsmethode gedegen gemotiveerd en op de juiste wijze uitgevoerd?
|
ja/nee/n.v.t.
|
P.II.2
|
Zijn de experts met inhoudelijke vakdeskundigheid die de ijkpunten van de indicatoren
van observeerbare (gedrags-)kenmerken van de ontwikkelingsdoelen en eventuele tussentijdse
mijlpalen vaststellen naar behoren geselecteerd en getraind?
|
ja/nee/n.v.t.
|
P.II.3
|
Is er voldoende overeenstemming tussen de experts?
|
ja/nee/n.v.t.
|
Toelichting P.II.1:
Indien de ontwikkelingsdoelen in het instrument zijn verbijzonderd in inhoudelijk
bijpassende indicatoren van observeerbare (gedrags-)kenmerken, blijkt uit de verstrekte
informatie dat er gebruik is gemaakt van een beproefde ijkingsmethode. In dat geval
blijkt uit de verstrekte informatie ook waarom de gebruikte methode past bij het doel.
Toelichting P.II.2:
Indien de ontwikkelingsdoelen in het instrument zijn verbijzonderd in inhoudelijk
bijpassende indicatoren van observeerbare (gedrags-)kenmerken, onderbouwt de aanbieder
de selectieprocedure op gedegen wijze, heeft er een selectie van voldoende experts
voor de gekozen methode met aantoonbaar inhoudelijke vakdeskundigheid plaatsgevonden
en zijn deze experts getraind in de betreffende ijkingsmethode. De aanbieder beargumenteert
waarom het aantal experts voor de gekozen methode als voldoende wordt beschouwd.
Toelichting P.II.3:
Indien de ontwikkelingsdoelen in het instrument zijn verbijzonderd in inhoudelijk
bijpassende indicatoren van observeerbare (gedrags-)kenmerken, toont de aanbieder
aan dat de mate van overeenstemming tussen de experts resulteert in een coëfficiënt
voor overeenstemming waarbij de proportie overeenstemming representatief is voor een
instrument voor minder belangrijke beslissingen (een zogenaamd medium stakes instrument)
op individueel niveau. De toetsaanbieder dient de gehanteerde methode en gekozen grenswaarden
te verklaren en deze te onderbouwen aan de hand van relevante literatuur.
3.2.3. Interbeoordelaarsbetrouwbaarheid
Deze paragraaf beschrijft de kwaliteitseisen voor de interbeoordelaarsbetrouwbaarheid.
Deze paragraaf 3.2.3 en de hierin opgenomen kwaliteitseisen P.III.1 en P.III.2 zijn
van toepassing op een observatie- en registratie-instrument type (I), indien de ontwikkelingsdoelen
in het instrument zijn verbijzonderd in inhoudelijk bijpassende indicatoren van observeerbare
(gedrags)kenmerken, zoals verantwoord in de kwaliteitseisen O.I.3 en O.I.4 in paragraaf
2.2.1.
Bij observatie- en registratie-instrumenten van het type (I) die van in het instrument
getrainde observatoren / leerkrachten (holistische) oordelen van de gedragingen van
jonge kinderen in de dagelijkse praktijk verlangen, dient te worden aangetoond dat
de betreffende observatoren / leerkrachten deze gedragingen eenduidig kunnen interpreteren
en correct in het instrument kunnen registreren. De mate waarin op deze manier betrouwbaar
met het instrument wordt gewerkt, dient de aanbieder aan te tonen, zowel na de initiële
ontwikkeling van het instrument als periodiek tijdens de tussentijdse check (zie paragraaf
1.7.2) van het instrument.
Code
|
Vragen
|
Mogelijke antwoorden
|
P.III.1
|
Wordt er met behulp van stelselmatig onderzoek aangetoond dat de in het instrument
getrainde observatoren / leerkrachten de indicatoren van observeerbare (gedrags-)kenmerken
(c.q. de observatie-categorieën) eenduidig kunnen interpreteren en registreren?
|
ja/nee/n.v.t.
|
P.III.2
|
Zijn de observatoren / leerkrachten, die zijn ingezet om de interbeoordelaarsovereenstemming
te schatten, naar behoren getraind?
|
ja/nee/n.v.t.
|
Toelichting P.III.1:
De aanbieder van het observatie- en registratie-instrument dient bewijslast in te
leveren, waaruit blijkt dat de in het instrument getrainde observatoren / leerkrachten
betrouwbaar werken met het instrument. De bewijslast bevat een methode die strookt
met de interpretatie van de observatie / resultaten. De toetsaanbieder dient de gehanteerde
methode en gekozen grenswaarden te verklaren en deze te onderbouwen aan de hand van
relevante literatuur.
Toelichting P.III.2:
Indien de ontwikkelingsdoelen in het instrument zijn verbijzonderd in inhoudelijk
bijpassende indicatoren van observeerbare (gedrags-)kenmerken, verduidelijkt de aanbieder
dat de observatoren / leerkrachten die zijn ingezet om de interbeoordelaarsovereenstemming
te schatten, op dezelfde wijze zijn geïnstrueerd en/of getraind als beoordelaars in
de praktijk (bijv. d.m.v. de handleiding voor leerkrachten).
3.3. Kwaliteitseisen psychometrische aspecten LVS-instrumenten – type (III) en (IV)
De verantwoording en de beoordeling van de kwaliteit van de psychometrische aspecten
van een LVS-instrument type (III) of type (IV) bestaat uit de volgende vijf fasen.
Fasen psychometrische analyse
|
Toelichting
|
Kwaliteitseisen
|
Fase 1. Data verzameling in een pretestprocedure
|
De toetsaanbieder pretest nieuwe items, voordat deze onderdeel worden van (de itembank
van) het LVS-instrument (type III en IV). Pretesten kan plaatsvinden in een proeftoets
op vrijwillig deelnemende scholen of in een operationele setting.
|
De kwaliteit van de dataverzameling wordt beoordeeld met de kwaliteitseisen voor het
steekproefkader en de samenstelling van de steekproef (zie § 3.3.1)
|
Fase 2. Normeren van het LVS-instrument
|
Het LVS-instrument (type III en IV) wordt genormeerd.
|
De kwaliteit van de normering wordt beoordeeld met de kwaliteitseisen voor kalibreren
en voor normeren (zie § 3.3.2).
|
Fase 3. Betrouwbaarheid van het LVS-instrument
|
Naar aanleiding van het instrument kunnen leerlingen worden gecategoriseerd. De toetsaanbieder
schat de betrouwbaarheid van het volledige LVS-instrument en berekent het percentage
misclassificaties van de verschillende categorieën (type III en IV).
|
De kwaliteit van de betrouwbaarheid wordt beoordeeld met de kwaliteitseisen voor betrouwbaarheid
(zie § 3.3.3).
|
Fase 4. Constructvaliditeit van het LVS-instrument
|
De toetsaanbieder toont de constructvaliditeit van het LVS-instrument kwantitatief
en/of kwalitatief aan.
|
De kwaliteit van de constructvaliditeit van het LVS-instrument wordt beoordeeld met
de kwaliteitseisen voor constructvaliditeit (zie § 3.3.4).
|
Fase 5. Volgaspect of signaleringsfunctie
|
De toetsaanbieder toont de kwaliteit aan van:
de opbouw;
de betrouwbaarheid (type III en IV), en;
het gebruik van de schaal, waarop de ontwikkeling (groei) van de leerling zichtbaar
wordt gemaakt, aan.
|
De kwaliteit van het volgaspect van het LVS-instrument wordt beoordeeld met de kwaliteitseisen
voor (1) de opbouw van de schaal, (2) de betrouwbaarheid van de schaal, en (3) het
gebruik van de schaal (zie § 3.3.5).
|
De toetsaanbieder verantwoordt de psychometrische analyses in de wetenschappelijke
handleiding.
3.3.1. Kwaliteit van de dataverzameling
Deze paragraaf beschrijft de kwaliteitseisen voor Fase 1 van de psychometrische verantwoording
van een LVS-instrument van het type (III) en (IV), zijnde de kwaliteit van de dataverzameling
in een pretestprocedure.
De kwaliteit van de normering van een LVS-instrument type (III) en (IV) en van de
betrouwbaarheid van de beslissingen die op basis van de genormeerde scores worden
genomen, hangt grotendeels af van de kwaliteit van de dataverzameling. Hierop zijn
de normering en de betrouwbaarheidsgegevens gebaseerd. Daarom wordt de kwaliteit van
de dataverzameling eerst behandeld.
De kwaliteit van de dataverzameling wordt beoordeeld volgens onderstaande kwaliteitseisen.
De dataverzameling kan plaatsvinden door nieuwe items aan te bieden aan scholen via
een vrijwillige proeftoets, of door nieuwe items direct toe te voegen aan (de itembank
van) het bestaande LVS-instrument. Wanneer, in dit tweede scenario, blijkt dat de
nieuw geconstrueerde items naar behoren functioneren, kan de toetsaanbieder ervoor
kiezen om deze direct mee te laten tellen. Voor een leerling mag het niet herkenbaar
zijn of een vraag wel of niet meetelt. Voor beide scenario’s geldt dat de toetsaanbieder
er voor kan kiezen om (een deel van) de nieuwe items die worden gepretest eerst door
het CvTE te laten beoordelen op de kwaliteitseisen voor inhoudsvaliditeit O.IV.2 en
O.IV.3 uit paragraaf 2.3.2.
Voor een tussentijdse check dient de aanbieder te onderzoeken of er vaardigheidsverschillen
zijn tussen de huidige steekproef van het instrument en de steekproef waarop het instrument
oorspronkelijk is gebaseerd. Daarnaast moet de aanbieder aantonen dat er geen sprake
is van differential item functioning (DIF) tussen de initiële afname en de huidige
afname van het instrument. Als er geen vaardigheidsverschillen zijn en geen DIF is
tussen de afnames, kan worden aangenomen dat de psychometrische kwaliteit van het
instrument in de tussentijd niet is veranderd en dat het instrument aan de gestelde
eisen voldoet. Indien er wel vaardigheidsverschillen worden gevonden en/of DIF is
tussen de afnames, moet de aanbieder op basis van de onderstaande psychometrische
eisen aantonen dat het instrument alsnog voldoet aan de gestelde eisen.
Code
|
Vragen
|
Mogelijke antwoorden
|
P.IV.1
|
Is de steekproef van leerlingen groot genoeg voor het gekozen model en representatief
voor de doelpopulatie?
|
ja/nee
|
P.IV.2
|
Indien er sprake is van een onvolledig dataverzamelingsdesign: is het dataverzamelingsdesign
adequaat?
|
ja/nee/n.v.t.
|
Toelichting P.IV.1:
De steekproef dient groot genoeg te zijn voor het schatten van de moeilijkheidsgraad,
het discriminerend vermogen en de kwaliteit van de afleiders van de items. Voor het
pretesten van nieuwe items in een proeftoets omgeving, volstaan zowel het gebruik
van de klassieke toets theorie als de itemresponstheorie (1PLM of 2PLM).
Voor alle genoemde pretestmogelijkheden en toetsvormen geldt in ieder geval dat de
steekproef representatief is voor de doelgroep (c.q. de landelijke populatie leerlingen).
De steekproef dient beschreven te worden op basis van de variabelen en niveaus zoals
beschreven in de onderstaande tabel en indien nodig te worden gestratificeerd/gewogen.
Variabele
|
#N
|
Welke niveaus (NB: #N = aantal niveaus)
|
regio
|
4
|
noord, zuid, oost, west
|
stedelijkheid
|
2
|
verstedelijkt, landelijk1
|
schoolgrootte
|
3
|
aantal leerlingen: <100, 100-300, >300 leerlingen
|
schoolweging
|
5
|
gewichtscategorieën: <23 / 23-26,99 / 27-32,99 / 33-36,99 / ≥ 37
|
1 De mate van verstedelijking is terug te voeren op de bij het CBS gebruikelijke indeling
naar vijf niveaus, namelijk zeer sterk, sterk, matig, weinig en niet verstedelijkt.
De vijfdeling is hier teruggebracht naar een tweedeling in enerzijds verstedelijkt
(zeer sterk en sterk) en anderzijds landelijk (matig, weinig en niet verstedelijkt)
die in de praktijk goed lijkt te volstaan (c. f. van Boxtel en Hemker, 2009). De toetsaanbieder
kan ervoor kiezen om van deze indeling af te wijken, mits deze keuze voldoende is
onderbouwd.
Tevens dient er informatie geleverd te worden over hoe de gerealiseerde steekproef
zich verhoudt tot de landelijke populatiewaarden met betrekking tot regio, stedelijkheid,
schoolgrootte en schoolweging. Indien van toepassing, wordt de aanbieder gevraagd
om effectgroottes aan te leveren ten behoeve van de gemaakte vergelijking.
Bij de steekproef is in een steekproefkader een beschrijving gegeven van de procedure
waarmee de steekproef tot stand is gekomen. Daarnaast zijn de omstandigheden waaronder
de data verzameld zijn, vergelijkbaar met de omstandigheden waaronder de operationele
toets wordt afgenomen. De steekproefgegevens over SBO en SO scholen worden buiten
beschouwing gelaten en, indien van toepassing, aanvullend separaat gerapporteerd en
verantwoord.
Bij het pretesten van nieuwe items in een proeftoets of in een operationele toets
bij gebruik van KTT is een steekproefgrootte van minimaal 200 observaties van elk
pretest item vereist. Voor het pretesten van nieuwe items in een proeftoets of in
een operationele toets bij gebruik van een 1PL is een steekproefgrootte van minimaal
300 observaties van elk pretest item vereist bij gebruik van een 2PL model en minimaal
600 observaties.
Wanneer de LVS-instrumenten worden ontwikkeld voor een specifiek vaardigheidsschaal,
dan geldt het minimumaantal observaties per pretest item voor die specifieke schaal.
Aanbieders mogen van de boven genoemde aantallen afwijken, mits dit gedegen en volledig
wordt onderbouwd.
Toelichting P.IV.2:
Wanneer een LVS-instrument van het type (III) of (IV) of eventueel de itembank van
het betreffende instrument uit afzonderlijke items bestaat, worden data vaak verzameld
in een onvolledig verbonden design, waarbij niet alle leerlingen alle items maken.
Men spreekt vaak van een boekjesdesign. Het staat de toetsaanbieder vrij om zelf een
best passend dataverzamelingsdesign te kiezen, mits de keuze wordt onderbouwd.
Als gebruik wordt gemaakt van een verbonden design, dan dient deze te bestaan uit
een overzicht of beschrijving van:
-
○ het totaal aantal boekjes (‘booklets’);
-
○ het aantal booklets per deelpopulatie óf het aantal beantwoorde items per kandidaat
bij een adaptieve toets;
-
○ het aantal items per domein én per niveau.
Verder gelden de volgende aanvullende eisen:
-
○ Met het oog op de kalibratie moeten de boekjes voldoende verbonden zijn. Dat betekent
dat er voldoende overlap in observaties tussen de verschillende items en boekjes moet
zijn.
-
○ Bij gebruik van een IRT model moet er voldoende evidentie voor de passing van dat
IRT model worden gepresenteerd, zodat kan worden nagegaan of de dataverzameling adequaat
is en of er aan de eisen van steekproefgrootten voor het schatten van (item)parameters
is voldaan. De toetsaanbieder beschrijft hiertoe als volgt hoe de passing van het
IRT model is geëvalueerd:
-
− de aanbieder toont aan dat de itemparameters tussen verschillende afnamen of boekjes
niet veranderen, en;
-
− de aanbieder voert een DIF analyse op itemniveau uit op minimaal de achtergrondvariabel
schoolweging, waarbij de itemparameterschattingen uit de verschillende boekjes in
de pretest worden vergeleken. Wanneer er sprake is van DIF op itemniveau, dient de
toetsaanbieder aan te tonen dat dit in overeenstemming is met de verwachting op basis
van de relevante literatuur. De aanbieder wordt verzocht ook effectgroottes te vermelden.
-
− De aanbieder vermeldt effectgroottes waarop de modelpassing is geëvalueerd (berekend
als het gemiddelde absolute verschil tussen de geobserveerde en verwachte proporties
juiste antwoorden, gegeven het IRT-model). De aanbieder toont aan dat dit verschil
op itemniveau ≤ 10%. De toetsaanbieder mag hier met de juiste motivering van afwijken.
-
− de toetsaanbieder onderbouwt de modelpassing aan de hand van een grafische weergave
van de modelfit en de geobserveerde scores van alle items.
-
○ De aanbieder wordt verzocht om informatie over de scoreverdeling aan te leveren, zodat
inzichtelijk is welke informatiewaarde (en omgekeerd de standard error) correspondeert
met een klassieke betrouwbaarheidscoëfficiënt van 0,70.
-
○ Andere kalibratiemethoden, zoals bijvoorbeeld kernel-equating van Von Davier en Holland
(2004), zijn ook toegestaan, zolang de betrouwbaarheid analoog is aan de voor IRT
geformuleerde eisen.
-
○ Er is beargumenteerd op welke wijze er rekening is gehouden met vermoeidheids- en/of
volgorde effecten.
-
○ Wanneer de pretestdata zijn verzameld met een CAT of MST is het niet zinvol om het
hele onvolledige design weer te geven, omdat iedere leerling dan in principe een unieke
verzameling items maakt. Ook dan moet de aanbieder duidelijk verantwoorden op welke
gegevens de linking en normering gebaseerd zijn.
3.3.2. Normering
Deze paragraaf beschrijft de kwaliteitseisen voor Fase 2 van de psychometrische verantwoording
van een LVS-instrument van het type (III) en (IV), zijnde de kwaliteit van het normeren
van het LVS-instrument.
Na het verzamelen van de observaties voert de toetsaanbieder een kalibratie uit met
de verzamelde pretestdata. In de kalibratie schat de toetsaanbieder de itemparameters,
zodat de kwaliteit van de in de proeftoets en/of in de operationele versie van de
toets nieuw gepreteste items kan worden vastgesteld. Vervolgens kan de toetsaanbieder
het LVS-instrument normeren. Er is onderscheid te maken tussen absolute en relatieve
normen.
Absolute normen plaatsen een leerling op een schaal die betrekking heeft op een analyse
van een inhoudelijk domein. Een absolute norm is gebaseerd op een minimaal acceptabel
beheersingsniveau van dat inhoudelijke domein. Absolute normen kan men bepalen via
een standaardsettingsmethode waarbij inhoudelijke experts de minimaal acceptabele
beheersingsniveaus vaststellen.
Relatieve normen plaatsen de leerling op een schaal die betrekking heeft op de relatieve
positie van een leerling in een populatie. Een relatieve norm is derhalve gebaseerd
op een onderlinge vergelijking van de toetsprestaties van de kandidaten in een adequaat
omschreven populatie. Om deze normen vast te stellen is een pretest met een zuivere
steekproef nodig, waarna de normen met een psychometrische methode worden vastgesteld.
Het staat de toetsaanbieder vrij om, binnen de eisen van het beoordelingskader, hiervoor
zelf een best passende wijze van normeren te kiezen. De toetsaanbieder beargumenteert
dat de eigen gemaakte keuze deugdelijk is. Dit betekent dat er naast de methode van
standaardsetting met experts of het definiëren van relatieve normen via pretesten
ook gebruik gemaakt mag worden van andere manieren. Bijvoorbeeld door de normen af
te leiden van de referentieniveaus. Dat kan op verschillende manieren worden gerealiseerd.
Bijvoorbeeld door een toets voor de leerjaren 6-8 te pretesten samen met items uit
beschikbare referentiesets of door LVS items via een pretest te kalibreren op dezelfde
schaal als de ankeritems van de doorstroomtoets.
Code
|
Vragen
|
Mogelijke antwoorden
|
Bepalen van absolute normen
|
P.V.1
|
Is de keuze voor de standaardbepalingsmethode gedegen gemotiveerd en op de juiste
wijze uitgevoerd?
|
ja/nee/n.v.t.
|
P.V.2
|
Zijn de experts met inhoudelijke vakdeskundigheid die de standaarden (cesuren) vaststellen
naar behoren geselecteerd en getraind?
|
ja/nee/n.v.t.
|
P.V.3
|
Is er voldoende overeenstemming tussen de experts?
|
ja/nee/n.v.t.
|
Vaststellen van relatieve normen
|
P.V.4
|
Als de normeringssteekproef afwijkt van de kalibratiesteekproef, zijn de normgroepen
groot genoeg?
|
ja/nee/n.v.t.
|
P.V.5
|
Als de normeringssteekproef afwijkt van de kalibratiesteekproef, zijn de normgroepen
representatief?
|
ja/nee/n.v.t.
|
P.V.6
|
Zijn de normen correct bepaald?
|
ja/nee/n.v.t.
|
Linken met referentieniveaus
|
P.V.7
|
Is de toets op gedegen manier verbonden aan passende referentieniveaus?
|
ja/nee/n.v.t.
|
Andere methodes
|
P.V.8
|
Als naast/in plaats van de bovengenoemde methoden (eisen P.V.1 t/m P.V.7) ook andere
normeringsmethoden worden gebruikt, zijn deze methodes goed omschreven, voldoende
onderbouwd en correct uitgevoerd?
|
ja/nee/n.v.t.
|
Toelichting P.V.1:
De toetsaanbieder verantwoordt de kwaliteit van de gekozen standaard- of cesuurbepalingsmethode
op gedegen en complete wijze en onderbouwt dat de methode correct is uitgevoerd door
de erbij betrokken experts met vakdeskundigheid.
Toelichting P.V.2:
De toetsaanbieder onderbouwt de selectieprocedure op gedegen en complete wijze; er
zijn voldoende experts met aantoonbaar inhoudelijke vakdeskundigheid geselecteerd,
zij hebben een gedocumenteerde training gevolgd in de betreffende standaardbepalingsmethode.
Toelichting P.V.3:
De toetsaanbieder toont aan dat de mate van overeenstemming tussen de experts resulteert
in een coëfficiënt voor overeenstemming waarbij de proportie overeenstemming representatief
is voor een instrument voor minder belangrijke beslissingen (een zogenaamd medium-stakes
instrument) op individueel niveau.
Toelichting P.V.4:
De toetsaanbieder toont aan dat de normgroep bestaat uit het bij kwaliteitseis P.IV.1
genoemde minimum aantal observaties per item.
Toelichting P.V.5:
Een beschrijving van de samenstelling van de normgroep voor in ieder geval de achtergrondvariabelen
regio, stedelijkheid, schoolgrootte en schoolweging is beschikbaar en er is gebruik
gemaakt van een aselect steekproefmodel. Als er geen gebruik is gemaakt van een aselect
steekproefmodel dient de aanbieder dit op juiste en volledige wijze te onderbouwen.
Toelichting P.V.6:
De toetsaanbieder onderbouwt op gedegen en complete wijze de betekenis en beperkingen
van de normschaal. Ook toont de aanbieder aan dat het type normschaal in overeenstemming
is met het doel van het LVS-instrument van het type (III) of (IV).
Toelichting P.V.7:
Bij LVS-instrumenten van het type (III), waarbij de standaard / cesuur al min of meer
vastligt in de onderliggende referentiesets dient de cesuur te worden overgebracht
middels linking en niet door een afzonderlijke standaardbepaling. De toetsaanbieder
verantwoordt op gedegen en complete wijze dat de cesuren correct zijn overgebracht.
Toelichting P.V.8:
Het beoordelingskader LVS laat ruimte voor alternatieve vormen van normeren, zoals
bijvoorbeeld continue normeren waarbij leerlingen uit een lagere groep bij de normering
ook een ‘moeilijkere’ toets maken voor een hoger leerjaar. Alternatieve vormen van
normeren dienen inhoudelijk en psychometrisch te worden onderbouwd door de toetsaanbieder.
3.3.3. Betrouwbaarheid
Deze paragraaf beschrijft de kwaliteitseisen voor Fase 3 van de psychometrische verantwoording
van een LVS-instrument van het type (III) en (IV), zijnde de kwaliteit van de betrouwbaarheid
van het LVS-instrument.
Leerlingen worden na afname van het LVS-instrument gecategoriseerd. De toetsaanbieder
schat de betrouwbaarheid van het volledige LVS-instrument van het type (III) of (IV)
en berekent het percentage misclassificaties van de verschillende categorieën van
het LVS-instrument van het type (III) of (IV).
Code
|
Vragen
|
Mogelijke antwoorden
|
P.VI.1
|
Zijn of worden de betrouwbaarheidsgegevens van de metingen correct berekend?
|
ja/nee
|
P.VI.2
|
Zijn de betrouwbaarheidsgegevens voldoende gezien de conclusies en eventuele beslissingen
die met het instrument genomen worden?
|
ja/nee
|
P.VI.3
|
Is er een indicatie gegeven van het percentage misclassificaties van de verschillende
categorieën van het LVS-instrument van het type (III) of (IV)?
|
ja/nee
|
Voor het schatten van de betrouwbaarheid van niveaubepaling en groei mag alleen gebruik
gemaakt worden van items die onderwijskundig en psychometrisch goed functioneren.
Wanneer de toetsaanbieder er toch voor kiest om, om andere redenen, minder goed functionerende
items mee te nemen, dan dient de toetsaanbieder dit te beargumenteren.
Toelichting P.VI.1:
Bij een LVS-instrument van het type (III) of (IV) is er normaliter sprake van meerdere
categorieën of van een relatieve categorisatie ten opzichte van een referentiepopulatie.
De betrouwbaarheid van het LVS-instrument van het type (III) of (IV) hangt samen met
percentage verwachte misclassificaties. De betrouwbaarheid moet adequaat worden aangetoond.
In de psychometrie maakt men een onderscheid tussen globale en lokale betrouwbaarheid.
Globale betrouwbaarheid heeft betrekking op de mate waarin men twee willekeurig getrokken
leerlingen uit een adequaat gedefinieerde populatie kan onderscheiden. Een maat voor
de globale betrouwbaarheid is een variantieratio: de verhouding tussen de relevante
variatie in de te meten vaardigheid (de ware variantie) en de totale variantie, die
de som is van de ware variantie en irrelevante variatie (de ruis). Deze ratio is zowel
met CTT als met een IRT model te berekenen. Het is hierbij belangrijk om alle variantie-componenten
in de schatting van de betrouwbaarheid mee te nemen. Dus ook variantie tussen beoordelaars,
of de effecten van clustering van leerlingen in schoolklassen op de variantieschatting.
Zoiets is bijvoorbeeld te realiseren met generaliseerbaarheidstheorie en multilevelanalyse.
Vaak kan men de globale betrouwbaarheid correct schatten met Cronbach's Alpha, maar
bij hiërarchische steekproeven en beoordelingen door beoordelaars, zijn de genoemde
meer geavanceerde technieken nodig.
Lokale betrouwbaarheid heeft betrekking op de meetprecisie bij specifieke punten op
de schaal. Bijvoorbeeld bij categoriegrenzen. Voor het schatten van de lokale betrouwbaarheid
is IRT het meest geëigend. Meestal gebruikt men Fishers informatie bij bepaalde punten
op de latente vaardigheidsschaal.
Toelichting P.VI.2:
Bij een LVS-instrument van het type (III) of (IV) is de coëfficiënt voor globale betrouwbaarheid
berekend over minimaal 300 kandidaten. Bij hiërarchische steekproeven moet bij het
bepalen van steekproefgrootten ook rekening gehouden worden met de effecten van clustering
van leerlingen. De betrouwbaarheidscoëfficiënt moet voldoende zijn voor een medium
stakes instrument, wat neerkomt op een betrouwbaarheid ≥ 0,70.
Lokale betrouwbaarheid kan gebruikt worden om een schatting te maken van het percentage
leerlingen dat foutief wordt geclassificeerd. Wat in dit nog acceptabel is, hangt
af van de meetpretentie van de toets. Goed vergelijkingsmateriaal is te vinden in
de schattingen van percentages misclassificaties in verantwoordingen van andere LVS-toetsen
en doorstroomtoetsen voor het primair onderwijs (zie ook P.VI.3).
Toelichting P.VI.3:
De toetsaanbieder geeft een indicatie van het percentage misclassificaties van de
verschillende categorieën van het LVS-instrument van het type (III) of (IV) en dient
deze te duiden door middel van bijvoorbeeld de plus-minus 1 niveau-index (Pilliner
1969) of de marginal classification accuracy. De aanbieder legt uit waarom voor een
bepaalde statistische methode en de gehanteerde grenzen is gekozen.
3.3.4. Constructvaliditeit
Deze paragraaf beschrijft de kwaliteitseisen voor Fase 4 van de psychometrische verantwoording
van een LVS-instrument van het type (III) en (IV), zijnde de kwaliteit van de constructvaliditeit
van het LVS-instrument.
De construct- of begripsvaliditeit is de eigenschap die het LVS-instrument heeft als
kan worden aangetoond dat het instrument het door de constructeur beoogde kenmerk
van de leerling (onderliggende trek, vaardigheid) meet. De toetsaanbieder kan de constructvaliditeit
kwantitatief en/of kwalitatief aantonen.
Code
|
Vragen
|
Mogelijke antwoorden
|
P.VII.1
|
Is aangetoond dat er sprake is van unidimensionaliteit?
|
ja/nee/n.v.t.
|
P.VII.2
|
Is aangetoond dat de itemkwaliteit op orde is?
|
ja/nee/n.v.t.
|
P.VII.3
|
Is de convergente en divergente validiteit van het instrument door onderzoek aangetoond?
|
ja/nee
|
P.VII.4
|
Is aangetoond dat er geen sprake is van item bias voor relevante subgroepen/categorieën?
|
ja/nee/n.v.t.
|
P.VII.5
|
Zijn verschillen in prestaties van relevante subgroepen voldoende onderbouwd?
|
ja/nee
|
Toelichting P.VII.1:
De resultaten van de uitgevoerde kalibratie maken het aannemelijk dat er bij het LVS-instrument
van het type (III) of (IV) sprake is van unidimensionaliteit. Dit betekent dat met
elke willekeurige subset van items uit de gekalibreerde itembank dezelfde onderliggende
vaardigheid kan worden vastgesteld. De unidimensionaliteit kan op klassieke wijze
worden aangetoond met bijvoorbeeld latente correlaties tussen verschillende inhoudelijke
subvaardigheden of een confirmatieve factoranalyse gekoppeld aan multidimensionale
betrouwbaarheidsindices. Het gebruik van IRT biedt daarnaast de mogelijkheid om met multidimensionele IRT
modellen, testlet modellen of bi-factormodellen een complexere dimensiestructuur te
modelleren.
Toelichting P.VII.2:
De itemkwaliteit wordt aangetoond met een passende moeilijkheidsparameter en met voldoende
discriminerend vermogen. De aanbieder onderbouwt de gekozen grenswaarden voor de p-
en rit-waarden op een juiste en gedegen wijze.
Toelichting P.VII.3:
De aanbieder laat op basis van onderzoek zien dat het te meten onderdeel hoog correleert
met andere toetsen die hetzelfde construct meten (convergente validiteit) en laag
correleert met andere toetsen die een ander construct meten (divergente validiteit).
Indien het aantonen van convergente validiteit niet mogelijk is, bijv. als er geen
vergelijkbare instrumenten beschikbaar zijn of als naar mate de complexiteit van het
te meten onderdeel toeneemt (bv. het meer complexe onderdeel sociaal-emotionele ontwikkeling
versus het meer overzichtelijk terrein Rekenen) wegen de inhoudelijke argumenten zwaarder
dan de kwantitatieve argumenten. Met bijvoorbeeld een Multi Trait Multi Method matrix
kan worden onderbouwd hoe een instrument zich gedraagt. Voor de meer complexe onderdelen
is er vaak beperkt of geen extern vergelijkingsmateriaal om de convergente validiteit
te onderzoeken. In die situatie biedt een meer argument-based approach (Kane, 2004)
of bijvoorbeeld een operationalisering van de inhoudsvaliditeit uitkomst. Dit betreft
een meer beschrijvende manier op basis van de blueprint /toetsmatrijs, waarbij gelet
wordt op de representativiteit en evenwichtigheid.
Toelichting P.VII.4:
In het kader van itembias is er onderzoek uitgevoerd naar differentieel item functioneren
(DIF) voor relevante subgroepen en/of categorieën, zoals bijvoorbeeld afnamevormen
(papier/digitaal).
Als er sprake is van een tussentijdse check dient de aanbieder onderzoek naar DIF
uit te voeren tussen de afnames van de initiële indiening en de tussentijdse check
om aan te tonen dat de items nog hetzelfde functioneren.
Toelichting P.VII.5:
De prestaties van relevante subgroepen is onderzocht door de gemiddelde score en standaarddeviatie
per subgroep te bepalen. Tevens dienen de effectgroottes te worden toegevoegd, waarbij
geldt dat een klein effect < 0.2 voldoende is. Op gedegen en complete wijze onderbouwt
de aanbieder de keuze van de relevante subgroepen en verantwoordt eventuele verschillen
op basis van theoretische inzichten en/of eerder onderzoek.
3.3.5. Volgaspect
Deze paragraaf beschrijft de kwaliteitseisen voor Fase 5 van de psychometrische verantwoording
van een LVS-instrument van het type (III) en (IV), zijnde de kwaliteit van het volgaspect
of de signaleringsfunctie.
Om leervorderingen te kunnen meten, moeten de scores van de leerling op een schaal
te plaatsen zijn die de ontwikkeling van leerlingen zichtbaar maakt. Dit leidt voor
LVS-instrumenten van het type (III) of (IV) tot drie criteria met betrekking tot de
schaal waarop groei wordt uitgedrukt: (1) de opbouw van de schaal, (2) de betrouwbaarheid
van de metingen, en (3) het gebruik van de schaal.
Code
|
Vragen
|
Mogelijke antwoorden
|
P.VIII.1
|
Is er een voldoende empirische onderbouwing van de schaal waarop de groei van een
leerling wordt uitgedrukt? Wordt groei op een adequate manier gemeten?
|
ja/nee
|
P.VIII.2
|
Wordt de groei van een leerling nauwkeurig en betrouwbaar gemeten?
|
ja/nee
|
P.VIII.3
|
Worden er gegevens verstrekt over hoe groei geïnterpreteerd dient te worden?
|
ja/nee
|
Toelichting P.VIII.1:
Er dient duidelijk invulling te worden gegeven aan het begrip ‘volgsysteem’. Het betreft
een systeem met onderliggende data waarmee de ontwikkeling van de leerling kan worden
gevolgd over de tijd heen en waarmee kan worden geïnterpreteerd in hoeverre deze ontwikkeling
in lijn is met de leerdoelen van de verschillende leerjaren en/of met de ontwikkeling
van de andere leerlingen uit hetzelfde leerjaar. Het volgsysteem moet hierom bestaan
uit werkelijke gegevens om scores van verschillende afnames met elkaar te kunnen vergelijken
en/of om duiding te kunnen geven in termen van bijvoorbeeld groei. Tevens dienen er
duidelijke handvatten voor testgebruikers te komen hoe zij de toetsresultaten kunnen
gebruiken als volgsysteem. Bij het gebruik van bijvoorbeeld IRT modellen wordt de
vergelijkbaarheid al iets makkelijker (uitgaande van een juiste linking tussen alle
items/toetsversies). Omdat veel docenten en ouders niet weten hoe IRT werkt en hoe
dit moet worden toegepast, moeten de toetsaanbieders uitleggen hoe zij de resultaten
moeten lezen en interpreteren.
Alle overwegingen over steekproeftrekking, betrouwbaarheid en normering gelden eveneens
voor een reeks van twee of meer opeenvolgende meetmomenten. Dus beide steekproeven
moeten representatief zijn en het design, dat in dit geval bijna per definitie onvolledig
is, moet adequaat zijn in de termen die hierboven zijn gedefinieerd.
Verder moet er empirische informatie zijn over de schaalbaarheid van opeenvolgende
meetmomenten. Het hoeft niet het geval te zijn dat de schaal strikt uni-dimensioneel
is in de zin van een uni-dimensioneel IRT model (hoewel dit wel de meest voor de hand
liggende schaal is). Wel dient er in ieder geval betekenisvolle informatie gegeven
te worden over de samenhang tussen de twee (of meer) meetmomenten. Essentieel is dat
de aanbieder de schaal waarop de groei wordt weergegeven grondig en compleet onderbouwt.
De aanbieder dient ook aan te geven of het instrument deel uitmaakt van een overkoepelend
LVS (bijvoorbeeld, als alleen de toetsen voor groepen 3 tot en met 5 zijn ingediend
voor een leerlingvolgsysteem dat bedoeld is voor groepen 3 tot en met 8). Als dit
het geval is, dient de aanbieder duidelijk en volledig te onderbouwen hoe de schalen
van de verschillende toetsen binnen het overkoepelend LVS aan elkaar zijn gekoppeld.
Toelichting P.VIII.2:
Voor een LVS-instrument van het type (III) of (IV) is het van belang om een indicatie
van de betrouwbaarheid van die gevolgtrekking weer te geven. Hiervoor is het belangrijk
om te bepalen of de focus ligt op individuele verandering of op verschillen tussen
personen op groepsniveau. Wanneer het instrument bedoeld is voor het nemen van beslissingen op individueel
niveau, dient de aanbieder de meetprecisie van de verschillende meetmomenten in kaart
te brengen en de betrouwbaarheid van de verschilscores (reliable change index 3 en ) te berekenen en de gekozen methode te onderbouwen. Als het instrument wordt gebruikt
om de groei van leerlingen relatief te positioneren, bijvoorbeeld ten opzichte van
een gemiddelde groeiscore, moet de aanbieder ook de betrouwbaarheid van de groeimetingen
berekenen en deze zorgvuldig onderbouwen.
Bij gebruik van percentielscores moet de betrouwbaarheid van de verandering van de
percentielscores geschat zijn. Binnen de CTT-methodologie zijn percentielscores gebaseerd
op een somscore die een meetfout bevat. Het verschil in percentielscores kan vertaald
worden in het verschil in onderliggende scores en hun betrouwbaarheid. Bij IRT zijn
de percentielscores gebaseerd op vaardigheidsscores die geschat zijn met een zekere
mate van betrouwbaarheid. Omdat de transformatie van ruwe scores of theta scores naar percentielscores niet
lineair is, kan dit wel resulteren in een zekere bias.
Toelichting P.VIII.3:
De handleiding moet een beschrijving bevatten van hoe de gebruiker (zoals docenten
en ouders) de gegevens met betrekking tot de groei (en/of stagnatie) van een leerling
inhoudelijk en/of relatief ten opzichte van een referentiepopulatie dient te interpreteren.
De geschreven toelichting moet consistent zijn met de resultaten uit het betrouwbaarheids-,
validiteits- en normeringsonderzoek, dat wil zeggen dat de gebruiker een goed beeld
moet krijgen van de (relatieve) onderwijskundige waarde en meetprecisie van de resultaten
en de meetpretentie van het instrument als geheel.