3.1. Inleiding
De beoordeling van de psychometrische aspecten van een LVS-instrument richt zich op
de in paragraaf 1.4 genoemde betrouwbaarheid en deugdelijke normering, de (construct)validiteit
en op het in paragraaf 1.4.1 en 1.4.2 genoemde punt a) betreffende de wijze waarop
de vorderingen van leerlingen op cognitief of niet-cognitief gebied systematisch worden
gemeten.
De (optionele) kwaliteitseisen psychometrische aspecten voor observatie- en registratie-instrumenten
type (I) zijn te vinden in de paragrafen 3.2.1 en 3.2.2. De kwaliteitseisen psychometrische
aspecten voor LVS-instrumenten type (III) en (IV) zijn te vinden in de paragrafen
3.3.1 tot en met 3.3.5.
Voor een observatie- en registratie-instrument van het type (II) heeft de aanbieder
de keuzemogelijkheid om de psychometrische kwaliteitseisen voor instrument type I
te volgen, de psychometrische kwaliteitseisen voor instrument type III en IV te volgen,
of om een combinatie van de psychometrische kwaliteitseisen voor instrument type I
en voor instrument type III en IV te volgen. Welke combinaties mogelijk zijn, is in
de tabellen in paragraaf 1.5 aangegeven.
3.2. Kwaliteitseisen psychometrische aspecten observatie- en registratie-instrumenten
- type (I) en (II)
De beoordeling van de psychometrische aspecten van een observatie- en registratie-instrument
type (I) richt zich op de dataverzameling (paragraaf 3.2.1), de onderbouwing van de
kwaliteit van de resultaten / uitspraken van het instrument (paragraaf 3.2.2) en op
de interbeoordelaarsbetrouwbaarheid (paragraaf 3.2.3).
3.2.1. Dataverzameling
Deze paragraaf beschrijft de kwaliteitseisen voor de dataverzameling, met specifieke
aandacht voor de kwaliteitseis steekproef van leerlingen.
Deze paragraaf 3.2.1 en de hierin opgenomen kwaliteitseis P.I.1 is van toepassing
op een observatie- en registratie-instrument type (I), indien de ontwikkelingsdoelen
in het instrument zijn verbijzonderd in inhoudelijk bijpassende indicatoren van observeerbare
(gedrags-)kenmerken, zoals verantwoord in de kwaliteitseisen O.I.3 en O.I.4 in paragraaf
2.2.1.
Code
|
Vragen
|
Mogelijke antwoorden
|
P.I.1
|
Beschrijft de aanbieder een representatieve steekproef van de indicatoren van observeerbare
(gedrags-)kenmerken (c.q. de observatie-categorieën) op basis waarvan de steekproefresultaten
kunnen worden gegeneraliseerd naar de doelgroep van het instrument, zoals gedefinieerd
bij kwaliteitseis O.I.5?
|
ja/nee/n.v.t.
|
Toelichting P.I.1:
Indien van toepassing dient de aanbieder te verantwoorden dat de steekproef groot
genoeg is, adequaat is gestratificeerd naar betekenisvolle achtergrondvariabelen,
en is verzameld onder omstandigheden die redelijk vergelijkbaar zijn met de omstandigheden
waarin de gegevens in een operationele setting zouden worden verzameld.
3.2.2. IJking van het instrument
Deze paragraaf beschrijft de kwaliteitseisen voor de ijking van het instrument, met
specifieke aandacht voor de kwaliteitseis niet relatieve normering.
Deze paragraaf 3.2.2 en de hierin opgenomen kwaliteitseisen P.II.1 tot en met P.II.3
zijn van toepassing op een observatie- en registratie-instrument type (I), indien
de ontwikkelingsdoelen in het instrument zijn verbijzonderd in inhoudelijk bijpassende
indicatoren van observeerbare (gedrags-)kenmerken, zoals verantwoord in de kwaliteitseisen
O.I.3 en O.I.4 in paragraaf 2.2.1.
Het volgen van de ontwikkeling van de (jonge) leerling met betrekking tot de verschillende
ontwikkelingsdoelen en eventuele tussentijdse mijlpalen heeft nadrukkelijk niet als
doel om waardeoordeel over het niveau van de (jonge) leerling in relatie tot het niveau
van andere leerlingen uit te spreken. Het doel is om de leerkracht van informatie
te voorzien waarmee hij of zij zelfstandig en op basis van de eigen professionaliteit
de specifieke ontwikkelbehoefte van de individuele (jonge) leerling kan signaleren
en desgewenst een voor die specifieke leerling passende interventie kan doen.
Om de gebruiker te kunnen ondersteunen in het bepalen van de mate waarin een individuele
(jonge) leerling zich op zeker moment een specifiek ontwikkelingsdoel eigen heeft
gemaakt, dienen de indicatoren van observeerbare (gedrags-)kenmerken van de ontwikkelingsdoelen
en eventuele tussentijdse mijlpalen in het instrument te worden voorzien van ijkpunten
(c.q. referentiepunten). Dit noemt men ook wel het normeren van het instrument.
De leerkracht kan met behulp van het instrument op basis van observaties vaststellen
en volgen hoe individuele leerlingen gedurende de kleuterjaren zich ontwikkelen in
het aantal en soort bij hem of haar geobserveerde indicatoren van (gedrags-)kenmerken.
De ijkpunten van de indicatoren geven daarbij een objectiever beeld van de individuele
ontwikkeling, zonder dat de leerkracht een waardeoordeel over het niveau van de leerling
in relatie tot het niveau van andere leerlingen hoeft uit te spreken.
De ijkpunten worden bij de initiële ontwikkeling van het instrument door experts bepaald
en vervolgens periodiek geëvalueerd. Het ijken vindt plaats op grond van de inhoud
van het instrument, zoals verantwoord bij de kwaliteitseisen O.I.1 tot en met O.I.4
uit paragraaf 2.2.1 en derhalve niet op grond van de relatieve positie van het ene
kind ten opzichte van andere kinderen. Er zijn verschillende methodes om een instrument
te ijken, bijvoorbeeld de in de literatuur beschreven standaardbepalingsmethoden.
Deze methoden hebben gemeenschappelijk dat externe experts worden geraadpleegd en
dat deze experts op inhoudelijke en/of op kwantitatieve gronden tot voldoende overeenstemming
moeten komen over de te bepalen ijkpunten van de indicatoren van observeerbare (gedrags-)kenmerken
van de ontwikkelingsdoelen en eventuele tussentijdse mijlpalen in het instrument.
Code
|
Vragen
|
Mogelijke antwoorden
|
P.II.1
|
Is de keuze voor de ijkingsmethode gedegen gemotiveerd en op de juiste wijze uitgevoerd?
|
ja/nee/n.v.t.
|
P.II.2
|
Zijn de experts met inhoudelijke vakdeskundigheid die de ijkpunten van de indicatoren
van observeerbare (gedrags-)kenmerken van de ontwikkelingsdoelen en eventuele tussentijdse
mijlpalen vaststellen naar behoren geselecteerd en getraind?
|
ja/nee/n.v.t.
|
P.II.3
|
Is er voldoende overeenstemming tussen de experts?
|
ja/nee/n.v.t.
|
Toelichting P.II.1:
Indien de ontwikkelingsdoelen in het instrument zijn verbijzonderd in inhoudelijk
bijpassende indicatoren van observeerbare (gedrags-)kenmerken, blijkt uit de verstrekte
informatie dat er gebruik is gemaakt van een beproefde ijkingsmethode.
In dat geval blijkt uit de verstrekte informatie ook waarom de gebruikte methode past
bij het doel.
Toelichting P.II.2:
Indien de ontwikkelingsdoelen in het instrument zijn verbijzonderd in inhoudelijk
bijpassende indicatoren van observeerbare (gedrags-)kenmerken, is er een onderbouwing
van de selectieprocedure, heeft er een selectie van voldoende experts voor de gekozen
methode met aantoonbaar inhoudelijke vakdeskundigheid plaatsgevonden en zijn deze
experts getraind in de betreffende ijkingsmethode.
Toelichting P.II.3:
Indien de ontwikkelingsdoelen in het instrument zijn verbijzonderd in inhoudelijk
bijpassende indicatoren van observeerbare (gedrags-)kenmerken, toont de aanbieder
aan dat de mate van overeenstemming tussen de experts resulteert in een coëfficiënt
voor beoordelaarsovereenstemming waarbij de proportie overeenstemming representatief
is voor een instrument voor minder belangrijke beslissingen (een zogenaamd medium
stakes instrument) op individueel niveau.
3.2.3. Interbeoordelaarsbetrouwbaarheid
Deze paragraaf beschrijft de kwaliteitseisen voor de interbeoordelaarsbetrouwbaarheid,
met specifieke aandacht voor de kwaliteitseis betrouwbaarheid van de observaties.
Deze paragraaf 3.2.3 en de hierin opgenomen kwaliteitseisen P.III.1 en P.III.2 zijn
van toepassing op een observatie- en registratie-instrument type (I), indien de ontwikkelingsdoelen
in het instrument zijn verbijzonderd in inhoudelijk bijpassende indicatoren van observeerbare
(gedrags)kenmerken, zoals verantwoord in de kwaliteitseisen O.I.3 en O.I.4 in paragraaf
2.2.1.
Bij observatie- en registratie-instrumenten van het type (I) die van in het instrument
getrainde observatoren / leerkrachten (holistische) oordelen van de gedragingen van
jonge kinderen in de dagelijkse praktijk verlangen, dient te worden aangetoond dat
de betreffende observatoren / leerkrachten deze gedragingen eenduidig kunnen interpreteren
en correct in het instrument kunnen registreren. De mate waarin op deze manier betrouwbaar
met het instrument wordt gewerkt, dient de aanbieder aan te tonen, zowel na de initiële
ontwikkeling van het instrument als periodiek tijdens de tussentijdse check (zie paragraaf
1.7.2) van het instrument.
Code
|
Vragen
|
Mogelijke antwoorden
|
P.III.1
|
Wordt er met behulp van stelselmatig onderzoek aangetoond dat de in het instrument
getrainde observatoren / leerkrachten de indicatoren van observeerbare (gedrags-)kenmerken
(c.q. de observatie-categorieën) eenduidig kunnen interpreteren en registreren?
|
ja/nee/n.v.t.
|
P.III.2
|
Zijn de observatoren / leerkrachten die zijn ingezet om de interbeoordelaarsovereenstemming
te schatten, naar behoren getraind?
|
ja/nee/n.v.t.
|
Toelichting P.III.1:
De aanbieder van het observatie- en registratie-instrument dient bewijslast in te
leveren, waaruit blijkt dat de in het instrument getrainde observatoren / leerkrachten
betrouwbaar werken met het instrument.
De bewijslast bevat een methode die strookt met de (absolute dan wel relatieve bij
de LVS 3-8) interpretatie van de observatie / resultaten.
Toelichting P.III.2:
Indien de ontwikkelingsdoelen in het instrument zijn verbijzonderd in inhoudelijk
bijpassende indicatoren van observeerbare (gedrags-)kenmerken, zijn de observatoren
/ leerkrachten die door de aanbieder zijn ingezet om de interbeoordelaarsovereenstemming
te schatten, getraind op een niveau dat gelijk is aan het niveau van de training of
instructie voor beoordelaars in de praktijk.
3.3. Kwaliteitseisen psychometrische aspecten LVS-instrumenten - type (III) en (IV)
De verantwoording en de beoordeling van de kwaliteit van de psychometrische aspecten
van een LVS-instrument type (III) of type (IV) bestaat uit de volgende vijf fasen.
Fasen psychometrische analyse
|
Toelichting
|
Kwaliteitseisen
|
Fase 1. Data verzameling in een pretestprocedure
|
De toetsaanbieder pretest nieuwe items, voordat deze onderdeel worden van (de itembank
van) het LVS-instrument (type III en IV). Pretesten kan plaatsvinden in een proeftoets
op vrijwillig deelnemende scholen of in een operationele setting.
|
De kwaliteit van de dataverzameling wordt beoordeeld met de kwaliteitseisen voor het
steekproefkader en de samenstelling van de steekproef (zie § 3.3.1)
|
Fase 2. Normeren van het LVS-instrument
|
Het LVS-instrument (type III en IV) wordt genormeerd.
|
De kwaliteit van de normering wordt beoordeeld met de kwaliteitseisen voor kalibreren
en voor normeren (zie § 3.3.2).
|
Fase 3. Betrouwbaarheid van het LVS-instrument
|
Naar aanleiding van het instrument kunnen leerlingen worden gecategoriseerd. De toetsaanbieder
schat de betrouwbaarheid van het volledige LVS-instrument en berekent het percentage
misclassificaties van de verschillende categorieën (type III en IV).
|
De kwaliteit van de betrouwbaarheid wordt beoordeeld met de kwaliteitseisen voor betrouwbaarheid
(zie § 3.3.3).
|
Fase 4. Constructvaliditeit van het LVS-instrument
|
De toetsaanbieder toont de constructvaliditeit van het LVS-instrument kwantitatief
en/of kwalitatief aan.
|
De kwaliteit van de constructvaliditeit van het LVS-instrument wordt beoordeeld met
de kwaliteitseisen voor constructvaliditeit (zie § 3.3.4).
|
Fase 5. Volgaspect of signaleringsfunctie
|
De toetsaanbieder toont de kwaliteit aan van:
de opbouw;
de betrouwbaarheid (type III en IV), en;
het gebruik van de schaal, waarop de ontwikkeling (groei) van de leerling zichtbaar
wordt gemaakt, aan.
|
De kwaliteit van het volgaspect van het LVS-instrument wordt beoordeeld met de kwaliteitseisen
voor (1) de opbouw van de schaal, (2) de betrouwbaarheid van de schaal, en (3) het
gebruik van de schaal (zie § 3.3.5).
|
De toetsaanbieder verantwoordt de psychometrische analyses in de wetenschappelijke
handleiding.
3.3.1. Kwaliteit van de dataverzameling
Deze paragraaf beschrijft de kwaliteitseisen voor Fase 1 van de psychometrische verantwoording
van een LVS-instrument van het type (III) en (IV), zijnde de kwaliteit van de dataverzameling
in een pretestprocedure.
De kwaliteit van de normering van een LVS-instrument type (III) en (IV) en van de
betrouwbaarheid van de beslissingen die op basis van de genormeerde scores worden
genomen, hangt grotendeels af van de kwaliteit van de dataverzameling. Hierop zijn
de normering en de betrouwbaarheidsgegevens gebaseerd. Daarom wordt de kwaliteit van
de dataverzameling eerst behandeld.
De kwaliteit van de dataverzameling wordt beoordeeld met de kwaliteitseisen voor het
steekproefkader en de samenstelling van de steekproef.
De dataverzameling kan plaatsvinden door nieuwe items aan te bieden aan scholen via
een vrijwillige proeftoets, of door nieuwe items direct toe te voegen aan (de itembank
van) het bestaande LVS-instrument. Wanneer, in dit tweede scenario, blijkt dat de
nieuw geconstrueerde items naar behoren functioneren, kan de toetsaanbieder ervoor
kiezen om deze direct mee te laten tellen. Voor een leerling mag het niet herkenbaar
zijn of een vraag wel of niet meetelt.
Voor beide scenario’s geldt dat de toetsaanbieder er voor kan kiezen om (een deel
van) de nieuwe items die worden gepretest eerst door het CvTE te laten beoordelen
op de kwaliteitseisen voor inhoudsvaliditeit O.IV.2 en O.IV.3 uit paragraaf 2.3.2.
Code
|
Vragen
|
Mogelijke antwoorden
|
P.IV.1
|
Is de steekproef van leerlingen groot genoeg en representatief voor de landelijke
populatie?
|
ja/nee
|
P.IV.2
|
Indien er sprake is van een onvolledig dataverzamelingsdesign: is het dataverzamelingsdesign
adequaat?
|
ja/nee/n.v.t.
|
Toelichting P.IV.1:
-
− De steekproef moet groot genoeg zijn voor het schatten van de moeilijkheidsgraad,
het discriminerend vermogen en de kwaliteit van de afleiders van de items.
-
− Voor het pretesten van nieuwe items in een proeftoets omgeving, volstaan zowel het
gebruik van de klassieke toets theorie als de itemresponstheorie (1PLM of 2PLM IRT
model).
-
− Voor het pretesten van nieuwe items in een operationele setting (het zaaien van nieuwe
items) binnen een papieren of digitaal lineaire toets volstaan zowel het gebruik van
de klassieke toets theorie als de itemresponstheorie.
-
− Voor het pretesten van nieuwe items in een operationele setting binnen een adaptieve
toets op itemniveau (CAT) of een adaptieve toets op moduleniveau (MST) volstaat het
gebruik van een IRT model.
Voor alle genoemde pretestmogelijkheden en toetsvormen geldt in ieder geval:
-
− De steekproef moet representatief zijn voor de doelgroep (c.q. de landelijke populatie
leerlingen) in termen van het onderwijsniveau. Dit betekent dat de steekproef adequaat
moet zijn gestratificeerd naar de volgende achtergrondvariabelen:
-
° regio (Noord, Zuid, Oost, West)
-
° urbanisatiegraad (G4: de vier grootste gemeenten; G5-G37: de 5 tot 37 grootste steden;
>G37: de overige steden)
-
° schoolgrootte (<100; 100-300; >300)
-
° schoolweging (<23; 23-26,99; 27-32,99; 33-36,99; ≥ 37)
Tevens moet er informatie geleverd worden over hoe de gerealiseerde steekproef zich
verhoudt tot de landelijke populatiewaarden met betrekking tot geslacht, regio, urbanisatiegraad,
schoolgrootte en schoolweging.
-
− Bij de steekproef is in een steekproefkader een beschrijving gegeven van de procedure
waarmee de steekproef tot stand is gekomen.
-
− De omstandigheden waaronder de data verzameld zijn, moeten redelijk vergelijkbaar
zijn met de omstandigheden waaronder de operationele toets wordt afgenomen.
-
− De steekproefgegevens over SBO en SO scholen worden, indien van toepassing, buiten
beschouwing gelaten en aanvullend separaat gerapporteerd en verantwoord.
Pretesten van nieuwe items in een proeftoets of in een operationele toets bij gebruik
van een papieren of digitaal lineaire toets:
-
− Een steekproefgrootte van minimaal 300 observaties van elk pretest-item.
-
− Wanneer de LVS-instrumenten worden ontwikkeld voor een specifiek schooljaar (bv. groep
3 of eind groep 4), dan geldt het minimum aantal observaties per pretest-item voor
de leerlingen uit dat specifieke leerjaar.
-
− Wanneer het uitgangspunt is een vaardigheidsschaal met overlap in vaardigheid tussen
de verschillende leerjaren, dan geldt als voorwaarde dat er gebruik wordt gemaakt
van een IRT model. In dat geval geldt het minimum aantal observaties per vaardigheidsniveau
(categorieën op basis van theta, bij gebruik van een IRT model).
Pretesten van nieuwe items in een proeftoets of in een operationele toets bij gebruik
van een adaptieve toets op itemniveau (CAT) of bij gebruik van een adaptieve toets
op moduleniveau (MST):
-
− Een steekproefgrootte van minimaal 1.000 observaties van elk pretest item, verzameld
via een proeftoets of via het zaaien in de itembank.
-
− Wanneer de LVS-instrumenten worden ontwikkeld voor een specifiek schooljaar (bv. groep
3 of eind groep 4), dan geldt het minimum aantal observaties per pretest-item voor
de leerlingen uit dat specifieke leerjaar.
-
− Wanneer het uitgangspunt is een vaardigheidsschaal met overlap in vaardigheid tussen
de verschillende leerjaren, dan geldt als voorwaarde dat er gebruik wordt gemaakt
van een IRT model. In dat geval geldt het minimum aantal observaties per vaardigheidsniveau
(categorieën op basis van theta, bij gebruik van een IRT model).
-
− Met behulp van het itemresponsemodel maakt de toetsaanbieder de vertaling van itemparameters
naar de bandbreedtes van vaardigheidsniveau (theta) die horen bij de categorieën van
het LVS-instrument van het type (III) of (IV).
Toelichting P.IV.2:
Wanneer een LVS-instrument van het type (III) of (IV) of eventueel de itembank van
het betreffende instrument uit afzonderlijke items bestaat, worden data vaak verzameld
in een onvolledig ‘gelinked’ design, waarbij niet alle leerlingen alle items maken.
Men spreekt vaak van een boekjesdesign. Het staat de toetsaanbieder vrij om zelf een
best passend dataverzamelingsdesign te kiezen, mits de keuze wordt onderbouwd.
Als gebruik wordt gemaakt van een gelinked design, dan dient deze te bestaan uit een
overzicht of beschrijving van:
-
− het totaal aantal boekjes (‘booklets’);
-
− het aantal booklets per deelpopulatie óf het aantal beantwoorde items per kandidaat
bij een adaptieve toets;
-
− het aantal items per domein én per niveau.
Verder gelden de volgende aanvullende eisen:
-
− Met het oog op de kalibratie moeten de boekjes voldoende ‘gelinked’ zijn. Dat betekent
dat er voldoende overlap in observaties tussen de verschillende items en boekjes moet
zijn.
-
− Bij gebruik van een IRT model moet er voldoende evidentie voor de passing van dat
IRT model worden gepresenteerd, zodat kan worden nagegaan of de dataverzameling adequaat
is en of er aan de eisen van steekproefgrootten voor het schatten van (item)parameters
is voldaan. De toetsaanbieder beschrijft hiertoe:
-
° hoe de passing van het IRT model is geëvalueerd en voldoet. Dit wordt gedaan door:
-
■ aan te tonen dat de itemparameters tussen verschillende afnamen of boekjes niet veranderen,
en;
-
■ een DIF analyse (differential item functioning) op itemniveau uit te voeren op minimaal
de achtergrondvariabele geslacht, waarbij de itemparameterschattingen uit de verschillende
boekjes in de pretest worden vergeleken. Wanneer er sprake is van DIF op itemniveau,
dient de toetsaanbieder aan te tonen dat dit in overeenstemming is met de verwachting
op basis van de relevante literatuur.
-
° Aanvullend worden de effectgroottes vermeld, waarop de passing van het model is geëvalueerd.
Hierbij geldt als uitgangspunt dat, het verschil tussen het geobserveerd aantal correcte
antwoorden en het verwacht aantal correcte antwoorden op basis van de globale modeltoets
R1c (Glas, 1988) en/of de DIF toets op itemniveau kleiner is dan10%. De toetsaanbieder
mag hier met de juiste motivering van afwijken.
-
° Wat betreft de schattingsfout (standard error) van de nieuwe items dient de toetsaanbieder
informatie over de scoreverdeling aan te leveren, zodat inzichtelijk is welke informatiewaarde
(en omgekeerd de standard error) correspondeert met een klassieke betrouwbaarheidscoëfficiënt
van 0,80.
-
− Andere kalibratiemethoden, zoals bijvoorbeeld kernel-equating van Von Davier en Holland
(2004), zijn ook toegestaan, zolang de betrouwbaarheid analoog is aan de voor IRT
geformuleerde eisen.
-
− Er is beargumenteerd op welke wijze er rekening is gehouden met vermoeidheids- en/of
volgorde effecten.
-
− Wanneer de pretestdata zijn verzameld met een CAT of MST is het niet zinvol om het
hele onvolledige design weer te geven, omdat iedere leerling dan in principe een unieke
verzameling items maakt. Ook dan moet wel duidelijk zijn op welke gegevens de linking
en normering gebaseerd zijn.
3.3.2. Normering
Deze paragraaf beschrijft de kwaliteitseisen voor Fase 2 van de psychometrische verantwoording
van een LVS-instrument van het type (III) en (IV), zijnde de kwaliteit van het normeren
van het LVS-instrument.
Na het verzamelen van de observaties voert de toetsaanbieder een kalibratie uit met
de verzamelde pretestdata. In de kalibratie schat de toetsaanbieder de itemparameters,
zodat de kwaliteit van de in de proeftoets en/of in de operationele versie van de
toets nieuw gepreteste items kan worden vastgesteld. Vervolgens kan de toetsaanbieder
het LVS-instrument normeren. Er is onderscheid te maken tussen absolute en relatieve
normen.
Absolute normen plaatsen een leerling op een schaal die betrekking heeft op een analyse
van een inhoudelijk domein. Een absolute norm is gebaseerd op een minimaal acceptabel
beheersingsniveau van dat inhoudelijke domein. Absolute normen kan men bepalen via
een standaardsettingsmethode waarbij inhoudelijke experts de minimaal acceptabele
beheersingsniveaus vaststellen.
Relatieve normen plaatsen de leerling op een schaal die betrekking heeft op de relatieve
positie van een leerling in een populatie. Een relatieve norm is derhalve gebaseerd
op een onderlinge vergelijking van de toetsprestaties van de kandidaten in een adequaat
omschreven populatie. Om deze normen vast te stellen is een pretest met een zuivere
steekproef nodig, waarna de normen met een psychometrische methode worden vastgesteld.
Het staat de toetsaanbieder vrij om, binnen de eisen van het beoordelingskader, hiervoor
zelf een best passende wijze van normeren te kiezen. De toetsaanbieder beargumenteert
dat de eigen gemaakte keuze deugdelijk is. Dit betekent dat er naast de methode van
standaardsetting met experts of het definiëren van relatieve normen via pretesten
ook gebruik gemaakt mag worden van andere manieren. Bijvoorbeeld door de normen af
te leiden van de referentieniveaus. Dat kan op verschillende manieren worden gerealiseerd.
Bijvoorbeeld door een toets voor de leerjaren 6-8 te pretesten samen met items uit
beschikbare referentiesets of door LVS items via een pretest te kalibreren op dezelfde
schaal als de ankeritems van de doorstroomtoets.
Code
|
Vragen
|
Mogelijke antwoorden
|
Absoluut normeren
|
P.V.1
|
Is de keuze voor de standaardbepalingsmethode gedegen gemotiveerd en op de juiste
wijze uitgevoerd?
|
ja/nee/n.v.t.
|
P.V.2
|
Zijn de experts met inhoudelijke vakdeskundigheid die de standaarden (cesuren) vaststellen
naar behoren geselecteerd en getraind?
|
ja/nee/n.v.t.
|
P.V.3
|
Is er voldoende overeenstemming tussen de experts?
|
ja/nee/n.v.t.
|
Relatief normeren
|
P.V.4
|
Als de normeringssteekproef afwijkt van de kalibratiesteekproef, zijn de normgroepen
groot genoeg?
|
ja/nee/n.v.t.
|
P.V.5
|
Als de normeringssteekproef afwijkt van de kalibratiesteekproef, zijn de normgroepen
representatief?
|
ja/nee/n.v.t.
|
P.V.6
|
Zijn de normen correct bepaald?
|
ja/nee/n.v.t.
|
Toelichting P.V.1:
-
− Uit de verstrekte informatie blijkt dat de kwaliteit van de gekozen standaard- of
cesuurbepalingsmethode hoog is en dat de methode correct is uitgevoerd en is onderbouwd
door de erbij betrokken experts met vakdeskundigheid.
-
− Uit de verstrekte informatie blijkt waarom de gebruikte methode past bij het doel.
-
− Bij LVS-instrumenten van het type (III), waarbij de standaard / cesuur al min of meer
vastligt in de onderliggende referentiesets dient de cesuur te worden overgebracht
middels linking en niet door een afzonderlijke standaardbepaling.
-
− Het beoordelingskader LVS laat tevens ruimte voor alternatieve vormen van normeren,
zoals bijvoorbeeld continue normeren waarbij leerlingen uit een lagere groep bij de
normering ook een ‘moeilijker’ toets maken voor een hoger leerjaar. Alternatieve vormen
van normeren dienen inhoudelijk en psychometrisch te worden beargumenteerd door de
toetsaanbieder.
Toelichting P.V.2:
Toelichting P.V.3:
Toelichting P.V.4:
Toelichting P.V.5:
-
– Een beschrijving van de samenstelling van de normgroep voor in ieder geval de achtergrondvariabelen
sekse, regio, urbanisatiegraad, schoolgrootte en schoolweging is beschikbaar en er
is gebruik gemaakt van een aselect steekproefmodel.
Toelichting P.V.6:
3.3.3. Betrouwbaarheid
Deze paragraaf beschrijft de kwaliteitseisen voor Fase 3 van de psychometrische verantwoording
van een LVS-instrument van het type (III) en (IV), zijnde de kwaliteit van de betrouwbaarheid
van het LVS-instrument.
Code
|
Vragen
|
Mogelijke antwoorden
|
P.VI.1
|
Zijn of worden de betrouwbaarheidsgegevens van de metingen correct berekend?
|
ja/nee
|
P.VI.2
|
Zijn de betrouwbaarheidsgegevens voldoende gezien de conclusies en eventuele beslissingen
die met het instrument genomen worden?
|
ja/nee
|
P.VI.3
|
Is er een indicatie gegeven van het percentage misclassificaties van de verschillende
categorieën van het LVS-instrument van het type (I) of (II)?
|
ja/nee
|
Leerlingen worden na afname van het LVS-instrument gecategoriseerd. De toetsaanbieder
schat de betrouwbaarheid van het volledige LVS-instrument van het type (III) of (IV)
en berekent het percentage misclassificaties van de verschillende categorieën van
het LVS-instrument van het type (III) of (IV).
Voor het schatten van de betrouwbaarheid van niveaubepaling en groei mag alleen gebruik
gemaakt worden van items die onderwijskundig en psychometrisch goed functioneren.
Wanneer de toetsaanbieder er toch voor kiest om, om andere redenen, minder goed functionerende
items mee te nemen, dan dient de toetsaanbieder dit te beargumenteren.
Toelichting P.VI.1:
Bij een LVS-instrument van het type (III) of (IV) is er normaliter sprake van meerdere
categorieën of van een relatieve categorisatie ten opzichte van een referentiepopulatie.
De betrouwbaarheid van het LVS-instrument van het type (III) of (IV) hangt samen met
percentage verwachte misclassificaties. De betrouwbaarheid moet adequaat worden aangetoond.
In de psychometrie maakt men een onderscheid tussen globale en lokale betrouwbaarheid:
Globale betrouwbaarheid heeft betrekking op de mate waarin men twee willekeurig getrokken
leerlingen uit een adequaat gedefinieerde populatie kan onderscheiden. Een maat voor
de globale betrouwbaarheid is een variantieratio: de verhouding tussen de relevante
variatie in de te meten vaardigheid (de ware variantie) en de totale variantie, die
de som is van de ware variantie en irrelevante variatie (de ruis). Deze ratio is zowel
met CTT als met een IRT model te berekenen. Het is hierbij belangrijk om alle variantie-componenten
in de schatting van de betrouwbaarheid mee te nemen. Dus ook variantie tussen beoordelaars,
of de effecten van clustering van leerlingen in schoolklassen op de variantieschatting.
Zoiets is bijvoorbeeld te realiseren met generaliseerbaarheidstheorie en multilevelanalyse.
Vaak kan men de globale betrouwbaarheid correct schatten met Cronbach's Alpha, maar
bij hiërarchische steekproeven en beoordelingen door beoordelaars, zijn de genoemde
meer geavanceerde technieken nodig.
Lokale betrouwbaarheid heeft betrekking op de meetprecisie bij specifieke punten op
de schaal. Bijvoorbeeld bij categoriegrenzen. Voor het schatten van de lokale betrouwbaarheid
is IRT het meest geëigend. Meestal gebruikt men Fishers informatie bij bepaalde punten
op de latente vaardigheidsschaal.
Toelichting P.VI.2:
Bij een LVS-instrument van het type (III) of (IV) is de coëfficiënt voor globale betrouwbaarheid
berekend over minimaal 300 kandidaten. Bij hiërarchische steekproeven moet bij het
bepalen van steekproefgrootten ook rekening gehouden worden met de effecten van clustering
van leerlingen. De betrouwbaarheidscoëfficiënt moet voldoende zijn voor een medium
stakes instrument, wat neerkomt op een betrouwbaarheid ≥ 0,70.
Lokale betrouwbaarheid kan gebruikt worden om een schatting te maken van het percentage
leerlingen dat foutief wordt geclassificeerd. Wat in dit nog acceptabel is, hangt
af van de meetpretentie van de toets. Goed vergelijkingsmateriaal is te vinden in
de schattingen van percentages misclassificaties in verantwoordingen van andere LVS-toetsen
en doorstroomtoetsen voor het primair onderwijs.
Toelichting P.VI.3:
De toetsaanbieder geeft een indicatie van het percentage misclassificaties van de
verschillende categorieën van het LVS-instrument van het type (III) of (IV). Voor
een voldoende op kwaliteitseis B3 dient het percentage misclassificaties < 20% te
zijn.
3.3.4. Constructvaliditeit
Deze paragraaf beschrijft de kwaliteitseisen voor Fase 4 van de psychometrische verantwoording
van een LVS-instrument van het type (III) en (IV), zijnde de kwaliteit van de constructvaliditeit
van het LVS-instrument.
De construct- of begripsvaliditeit is de eigenschap die het LVS-instrument heeft als
kan worden aangetoond dat het instrument het door de constructeur beoogde kenmerk
van de leerling (onderliggende trek, vaardigheid) meet. De toetsaanbieder kan de constructvaliditeit
kwantitatief en/of kwalitatief aantonen.
Code
|
Vragen
|
Mogelijke antwoorden
|
P.VII.1
|
Is aangetoond dat er sprake is van unidimensionaliteit?
|
ja/nee
|
P.VII.2
|
Is aangetoond dat de itemkwaliteit op orde is?
|
ja/nee
|
P.VII.3
|
Is er onderzoek uitgevoerd naar de convergente en divergente validiteit?
|
ja/nee
|
P.VII.4
|
Is aangetoond dat er geen sprake is van item bias?
|
ja/nee
|
P.VII.5
|
Is onderzoek uitgevoerd naar de prestaties van relevante subgroepen?
|
ja/nee
|
Toelichting P.VII.1:
De resultaten van de uitgevoerde kalibratie maken het aannemelijk dat er bij het LVS-instrument
van het type (III) of (IV) sprake is van unidimensionaliteit. Dit betekent dat met
elke willekeurige subset van items uit de gekalibreerde itembank dezelfde onderliggende
vaardigheid kan worden vastgesteld. De unidimensionaliteit kan op klassieke wijze
worden aangetoond met een confirmatieve factoranalyse gekoppeld aan multidimensionale
betrouwbaarheidsindices. Het gebruik van IRT biedt daarnaast de mogelijkheid om met multidimensionele IRT
modellen, testlet modellen of bi-factormodellen een complexere dimensiestructuur te
modelleren.
Toelichting P.VII.2:
De itemkwaliteit wordt aangetoond met een passende moeilijkheidsparameter en met voldoende
discriminerend vermogen.
Toelichting P.VII.3:
Naar mate de complexiteit van het te meten onderdeel toeneemt (bv. het meer complexe
onderdeel sociaal-emotionele ontwikkeling versus het meer overzichtelijk terrein rekenen)
wegen de inhoudelijke argumenten zwaarder dan de kwantitatieve argumenten. Met bijvoorbeeld
een Multi Trait Multi Method matrix kan worden onderbouwd hoe een instrument zich
gedraagt. Voor de meer complexe onderdelen is er vaak beperkt of geen extern vergelijkingsmateriaal.
In die situatie biedt een meer argument based approach (Kane, 2004) of bijvoorbeeld
een operationalisering van de inhoudsvaliditeit uitkomst. Dit betreft een meer beschrijvende
manier op basis van de blueprint /toetsmatrijs, waarbij gelet wordt op de representativiteit
en evenwichtigheid.
Bovendien kan een DIF analyse worden toegevoegd als onderdeel van een validity argument.
Toelichting P.VII.4:
In het kader van itembias is er onderzoek uitgevoerd naar differentieel item functioneren
(DIF) met betrekking tot in ieder geval de achtergrondvariabele sekse.
Toelichting P.VII.5:
De prestaties van relevante subgroepen is onderzocht door de gemiddelde score en standaarddeviatie
per leeftijdsgroep en per sekse te bepalen. Tevens dienen de effectgroottes te worden
toegevoegd, waarbij geldt dat een klein effect < 0.2 voldoende is.
3.3.5. Volgaspect
Deze paragraaf beschrijft de kwaliteitseisen voor Fase 5 van de psychometrische verantwoording
van een LVS-instrument van het type (III) en (IV), zijnde de kwaliteit van het volgaspect
of de signaleringsfunctie.
Om leervorderingen te kunnen meten, moeten de scores van de leerling op een schaal
te plaatsen zijn die de ontwikkeling van leerlingen zichtbaar maakt. Dit leidt voor
LVS-instrumenten van het type (III) of (IV) tot drie criteria met betrekking tot de
schaal waarop groei wordt uitgedrukt: (1) de opbouw van de schaal, (2) de betrouwbaarheid
van de schaal, en (3) het gebruik van de schaal.
Code
|
Vragen
|
Mogelijke antwoorden
|
P.VIII.1
|
Is er een voldoende empirische onderbouwing van de schaal waarop de groei van een
leerling wordt uitgedrukt? Wordt groei op een adequate manier gemeten?
|
ja/nee
|
P.VIII.2
|
Wordt de betrouwbaarheid van de groei op die schaal adequaat weergegeven?
|
ja/nee
|
P.VIII.3
|
Worden er gegevens verstrekt over hoe groei geïnterpreteerd dient te worden?
|
ja/nee
|
Toelichting P.VIII.1:
-
− Er dient duidelijk invulling te worden gegeven aan het begrip ‘volgsysteem’. Het betreft
een systeem met onderliggende data waarmee de ontwikkeling van de leerling kan worden
gevolgd over de tijd heen en waarmee kan worden geïnterpreteerd in hoeverre deze ontwikkeling
in lijn is met de leerdoelen van de verschillende leerjaren en met de ontwikkeling
van de andere leerlingen uit hetzelfde leerjaar. Het volgsysteem moet hierom bestaan
uit werkelijke gegevens om scores van verschillende afnames met elkaar te kunnen vergelijken
en/of om duiding te kunnen geven in termen van bijvoorbeeld groei. Tevens dienen er
duidelijke handvatten voor testgebruikers te komen hoe zij de toetsresultaten kunnen
gebruiken als volgsysteem. Bij het gebruik van bijvoorbeeld IRT modellen wordt de
vergelijkbaarheid al iets makkelijker (uitgaande van een juiste linking tussen allen
items/toetsversies). Omdat veel docenten en ouders niet weten hoe IRT werkt en hoe
dit moet worden toegepast, moeten de toetsaanbieders uitleggen hoe zij de resultaten
moeten lezen en interpreteren.
-
− Alle overwegingen over steekproeftrekking, betrouwbaarheid en normering gelden eveneens
voor een reeks van twee of meer opeenvolgende meetmomenten. Dus beide steekproeven
moeten representatief zijn en het design, dat in dit geval bijna per definitie onvolledig
is, moet adequaat zijn in de termen die hierboven zijn gedefinieerd.
-
− Verder moet er empirische informatie zijn over de schaalbaarheid van opeenvolgende
meetmomenten. Het hoeft niet het geval te zijn dat de schaal strikt uni-dimensioneel
is in de zin van een uni-dimensioneel IRT model (hoewel dit wel de meest voor de hand
liggende schaal is). Wel dient er in ieder geval betekenisvolle informatie gegeven
te worden over de samenhang tussen de twee (of meer) meetmomenten. Essentieel is dat
de schaal waarop de groei wordt weergegeven grondig is onderbouwd.
Toelichting P.VIII.2:
-
– Daarbij is het voor LVS-instrumenten van het type (III) of (IV) ook van belang om
een indicatie van de betrouwbaarheid van die gevolgtrekking weer te geven. Vertaald
naar een uni-dimensioneel IRT model betekent dit dat de schattingsfout van het verschil
van de vaardigheid op twee tijdstippen geschat moet zijn. Voor percentielscores betekent
dit dat de betrouwbaarheid van de verandering van de percentielscores geschat moet
zijn.
-
– Bij gebruik van CTT zijn de percentielscores gebaseerd op een somscore met een meetfout.
Het verschil in percentielscores kan vertaald worden in het verschil in onderliggende
scores en hun betrouwbaarheid. Omdat de transformatie van ruwe scores of theta scores naar percentielscores niet
lineair is, kan dit wel resulteren in een zekere bias. Deze kan de toetsaanbieder
onderbouwen in de verantwoording.
-
– Bij gebruik van IRT zijn de percentielscores gebaseerd op vaardigheidsscores die geschat
zijn met een zekere mate van betrouwbaarheid.
Toelichting P.VIII.3:
De handleiding moet een beschrijving bevatten van hoe de gebruiker (zoals docenten
en ouders) de gegevens met betrekking tot de groei (en/of stagnatie) van een leerling
inhoudelijk en relatief ten opzichte van een referentiepopulatie dient te interpreteren.
De geschreven toelichting moet consistent zijn met de resultaten uit het betrouwbaarheids-,
validiteits- en normeringsonderzoek, dat wil zeggen dat de gebruiker een goed beeld
moet krijgen van de (relatieve) onderwijskundige waarde en meetpretentie van de resultaten.