Handleiding Werkgerelateerde Persoonlijkheid Vragenlijst Adaptief

Uitgangspunten bij de testconstructie

1.1. Voordelen adaptief testen

Adaptief testen heeft een aantal voordelen ten opzichte van klassieke, lineaire tests. De kandidaat krijgt items te zien op basis van eerder gegeven antwoorden. Hiermee vermijden we dat een kandidaat items te zien krijgt die voor hem of haar irrelevant zijn. Door het gebruik van een adaptieve test zijn we dus in staat om in veel kortere tijd een zeer betrouwbare meting van de vermogens van de kandidaat te bereiken, omdat er geen ‘nutteloze’ items bevraagd worden (Hambleton, Swaminathan, & Rogers, 1991; Weiss & Kingsbury, 1984). Dit werkt kostenbesparend in het geval de kandidaat de test op locatie maakt. Ook vragen we op deze manier minder tijd van de kandidaat. Bovendien zorgt dit ervoor dat er nauwkeuriger gemeten kan worden (Hambleton et al., 1991; Weiss & Kingsbury, 1984).

Bij cognitieve tests wordt aangenomen dat dit alles leidt tot een verhoogde motivatie bij het maken van de test ten opzichte van klassieke, niet adaptieve tests (Linacre, 2000; Mead & Drasgow, 1993; Sands & Waters, 1997; Weiss & Betz, 1973). Mensen met een lager niveau raken minder gedemotiveerd of afgeschrikt door te moeilijke items, terwijl mensen met een hoger niveau niet verveeld worden of onoplettend door te makkelijke items gaan (Wise, 2014). Echter, andere onderzoeken suggereren dat adaptief testen gepaard kan gaan met demotivatie bij testnemers, bijvoorbeeld omdat ze tussendoor geen makkelijkere items krijgen (om weer even ‘op adem te komen’/bevestigd te worden in hun kunnen) en geen vragen kunnen overslaan (Frey, Hartig, & Moosbrugger, 2009; Hausler & Sommer, 2008; Ortner, Weisskopf, & Koch, 2013; Tonidandel, Quiñones, & Adams, 2002). Het is echter niet aannemelijk dat dit negatieve effect van adaptief testen ook geldt voor persoonlijkheidsvragenlijsten zoals de WPV Adaptief; hier spreken we immers niet van ‘makkelijke’ of ‘moeilijke’ items.

Verder is bekend bij cognitieve tests dat wanneer het adaptieve karakter van de test wordt uitgelegd in de instructies, dit een belangrijke positieve invloed heeft op de motivatie in en prestaties op adaptieve tests (Wise, 2014). Daarom is ervoor gekozen de adaptieve procedure (weliswaar op simpele wijze) uit te leggen in de instructies van de WPV Adaptief.

1.2. Eéndimensionale itemresponstheorie

1.2.1. Het 2PL model

Bij de WPV Adaptief maken we gebruik van itemresponstheorie (IRT, zie bijvoorbeeld Hambleton, Swaminathan, & Rogers, 1991, en Embretson & Reise, 2000). Het doel van IRT is om de latente (dus niet geobserveerde) score, θ of ‘theta’, van iemand op een bepaald construct (bijvoorbeeld intelligentie of een persoonlijkheidstrek) te meten. Het is belangrijk om te noemen dat IRT-modellen draaien om kans. Gegeven bepaalde karakteristieken van items (bijvoorbeeld de moeilijkheidsgraad en de mate van discriminatie van het item), hoe groot is de kans dan dat iemand deze goed of fout beantwoordt? Het grote voordeel van IRT is dat de kenmerken van personen en items op dezelfde schaal kunnen worden weergegeven, waardoor we uitspraken over deze kansen kunnen doen.

Een voorbeeld van een veel gebruikt IRT-model in het cognitieve domein is het Two-Parameter Logistic (2PL) Model. We bespreken dit model hier omdat het model dat we gebruiken bij de WPV Adaptief, het Graded Response Model (Samejima, 1969), de uitbreiding van het 2PL model is voor Likert-schalen. In de discussie hieronder gaan we eerst nog uit van twee mogelijke antwoorden, namelijk goed (1) en fout (0). De kans op een goed antwoord, x = 1, op een bepaald item, gegeven iemands θ komt in het 2PL-model overeen met:

Uitgangspunten van de testconstructie(1.1)

Het subscript j geeft aan dat het om een karakteristiek van een persoon gaat. In de vergelijking is bi de moeilijkheid van een item i, en ai de discriminatie parameter. De specifieke betekenis van ai en bi worden in de volgende secties verder uiteengezet.

Het is belangrijk om hier op te merken dat de waarden van bi en ai in de praktijk altijd bekend zijn: deze itemkenmerken worden geschat (“gekalibreerd” in IRT termen) op basis van onderzoek, wat ook bij de WPV Adaptief gebeurd is (zie sectie 1.4). Dit betekent dat we voor verschillende waarden van θ kunnen bepalen hoe groot de kans is dat een item goed beantwoord wordt. Wanneer we verschillende waarden voor θ invullen kunnen we de itemresponsfunctie plotten (zie Figuur 1.1), waarin de ‘kans op een goed antwoord’ afgezet wordt tegen θ.

Figuur 1.1. Itemresponsfunctie 2PL-model.

Uitgangspunten van de testconstructie

1.2.2. Het schatten van theta

Deze kansen vormen de basis van de berekening van θ. Gegeven dat er in een test k aantal items zijn, is de likelihood functie van een bepaald responspatroon (bijvoorbeeld ‘goed, fout, goed’, of ‘1,0,1’) gelijk aan:

Uitgangspunten van de testconstructie(1.2)

Hierbij is Q de kans op een fout antwoord, oftewel 1 – Q. De likelihood van het responspatroon ‘goed, fout, goed’, of ‘1,0,1’, is dus Pitem1 x Qitem2 x Pitem3.

Op basis van deze likelihood wordt θ geschat: om de waarde van θ te vinden, wordt deze likelihood L gemaximaliseerd (oftewel, gekeken bij welke theta de top van deze functie ligt). Er zijn verschillende manieren om de maximale waarde van de likelihood functie te vinden. In de WPV Adaptief berekenen we θ’s door middel van de maximum a posteriori methode (MAP). Dit is een Bayesiaanse methode, wat betekent dat we ervan uitgaan dat een persoon (dus θ) getrokken is uit een populatie (bij ééndimensionale IRT is dit de populatie met een standaardnormale verdeling met gemiddelde 0 en standaarddeviatie van 1). Deze standaardnormale verdeling wordt de prior genoemd, en hiermee wordt de likelihood functie gewogen. Dit betekent dat L gewogen wordt met de kans dat we de geschatte θ vinden. Het gaat te ver om hier in detail uit te leggen hoe dit werkt, maar uiteindelijk is het maximum van de nieuwe gewogen likelihood functie (de posterior verdeling) de geschatte θ. De standaarddeviatie van deze posterior verdeling geeft de spreiding aan die rondom de geschatte θ verwacht mag worden: hoe kleiner deze spreiding, hoe nauwkeuriger de meting. Deze waarde wordt de standard error of measurement (SEM) of standaardfout genoemd. Deze SEM-waarde is belangrijk bij adaptieve tests en vragenlijsten, omdat deze SEM gebruikt wordt als het stopcriterium van de test (zie sectie 1.4.4). Voor meer informatie over de schatting van θ verwijzen we de geïnteresseerde lezer door naar De Ayala (2013).

De schatting van θ is gebaseerd op de gegeven antwoorden van een persoon. Bij adaptief testen wordt na ieder gegeven antwoord de θ opnieuw berekend met de tot dan toe gegeven antwoorden. De nauwkeurigheid waarmee θ geschat is, wordt aangegeven door de SEM. Als de θ nauwkeurig genoeg geschat is, met andere woorden als de SEM laag genoeg is, stopt de test (zie sectie 1.4.4).

1.2.3. Het Graded Response Model

In de discussie hiervoor hebben we ons beperkt tot ééndimensionale IRT (dus waar één latente trek θ gemeten wordt) en binaire data (dus goed/fout of 0/1). De WPV Adaptief hanteert een vijf-punts Likert-schaal uiteenlopend van Helemaal oneens tot en met Helemaal eens. Voor data verkregen via Likertschalen zijn er meerdere IRT-modellen ontwikkeld. Eén van de meest gebruikte modellen voor dit type data is het Graded Response Model (GRM; Samejima, 1969), een model dat ontwikkeld is voor geordende responsen, wat antwoorden op Likert-schalen feitelijk zijn.

Het GRM is een uitbreiding van het 2PL model zoals weergegeven in formule 1.1. Bij het GRM heeft elk item één a-parameter (discriminatie), en meerdere locatieparameters (b), waarbij het aantal locatieparameters gelijk staat aan het aantal antwoordcategorieën minus één (dus bij een vijf-punts-schaal zijn er vier locatieparameters). Het GRM is een cumulatief model, dat wil zeggen dat op basis van de itemparameters in eerste instantie de kans geschat wordt dat iemand in een bepaalde categorie of hoger scoort. Dus, de kans op een bepaalde antwoordcategorie of hoger op een bepaald item, gegeven iemands θ, komt in het GRM-model overeen met:

Uitgangspunten van de testconstructie(1.3)

Gezien het feit dat alle kansen logischerwijs op moeten tellen tot 1, kan de kans op een bepaalde gegeven antwoordcategorie als volgt berekend worden.

pk = Pk* – Pk*+1, (1.4)

Waarbij Pk* gelijk is aan P*xj uit formule 1.3. De kleine letter p geeft aan dat het om de kans gaat op een bepaald antwoord, terwijl de hoofdletter P aangeeft dat het om een cumulatieve kans gaat. Dus, bij een vijf-punts-schaal is de kans op een respons op eerste antwoordcategorie:

Uitgangspunten van de testconstructie (1.5)

De kans op de tweede antwoordcategorie wordt als volgt berekend:

Uitgangspunten van de testconstructie (1.6)Uitgangspunten van de testconstructie

De kansen op de derde en vierde antwoordcategorie worden op een gelijksoortige wijze berekend. De kans op de laatste antwoordcategorie is simpelweg de laatste cumulatieve kans:

Uitgangspunten van de testconstructie (1.7)

Net als bij het 2PL model is er bij het GRM een itemresponsfunctie, bij het GRM een categorieresponsfunctie genoemd, te plotten voor ieder item. Twee voorbeelden van items van de Competitie-schaal van de WPVN zijn weergegeven in Figuur 1.2.

Figuur 1.2. Itemresponsfunctie GRM.

Uitgangspunten van de testconstructieUitgangspunten van de testconstructie

Het schatten van de theta is bij het GRM niet anders dan bij het 2PL model; op basis van de gegeven antwoorden wordt de likelihood bepaald en bijvoorbeeld door middel van de MAP methode naar het maximum van de likelihood functie gekeken om de theta te vinden waarbij het gevonden antwoordpatroon het meest waarschijnlijk is.

1.3. Muldimensionale itemresponstheorie

In het voorgaande hebben we ons beperkt tot ééndimensionale IRT, dus waarbij er steeds slechts één latente trek werd geschat. Bij de WPV Adaptief maken we gebruik van multidimensionele IRT (MIRT), waarbij het doel is om niet één maar meerdere latente trekken tegelijkertijd te schatten.

1.3.1. Between-item versus within-item modellen

Er is een groot scala aan IRT-modellen die geschikt zijn voor multidimensionale adaptieve tests. Een eerste keuze die echter gemaakt dient te worden is of er uitgegaan wordt van between-item multidimensionaliteit of within-item dimensionaliteit (Figuur 1.3.).

Figuur 1.3. Schematische weergave within-item en between-item dimensionaliteit.

Uitgangspunten van de testconstructie

Between-item multidimensionaliteit Within-item multidimensionaliteit

(gebaseerd op Wang & Chen, 2004)

Bij betweenitem multidimensionale modellen wordt aangenomen dat elk item slechts een indicator is van één latente trek (dus slechts op één trek laadt); multidimensionaliteit wordt gemodelleerd door de correlaties tussen de latente trekken (de dubbelzijdige pijlen aan de linkerkant van het figuur). Belangrijk om hierbij te onthouden is dat bij between-item multidimensionaliteit het antwoord op een vraag slechts afhankelijk is van één latente trek.

Bij withinitem multidimensionaliteit kan een item één latente trek of meerdere latente trekken meten: in Figuur 1.3. hierboven zien we bijvoorbeeld dat item 6 een indicator is van Facet 2 en Facet 3. Binnen het domein van intelligentie kan dit bijvoorbeeld een item zijn dat zowel leesvaardigheid als rekenvaardigheid meet. Het ene model is niet per se beter dan het andere; het gaat erom van welk theoretisch model men uitgaat. De keuze tussen beide modellen kennen we overigens uit de (confirmatieve) factoranalyse: between-item multidimensionaliteit reflecteert modellen met een simple structure, terwijl withinitem multidimensionale modellen overeenkomen met complexe modellen die kruisladingen toestaan.

In termen van itemresponse theorie betekent betweenitem dimensionaliteit dat slechts één discriminatieparameter > 0 is, terwijl alle overige discriminatieparameters per definitie 0 zijn (en dus niet geschat worden). Dus, in het linker paneel van bovenstaande figuur heeft Item 1 drie discriminatieparameters, bijvoorbeeld met een waarde 1.5 voor Facet 1, en twee discriminatieparameters voor Facet 2 en Facet 3. Ter illustratie zijn hieronder mogelijke waarden voor discriminatieparameters weergegeven voor een betweenitem multidimensionaal model.

Tabel 1.1. Parameters van hypothetische items bij een between-item model met drie factoren
a1a2a3
Item 11.500
Item 2100
Item 31.200
Item 4010
Item 501.30
Item 601.10
Item 7001
Item 8001
Item 9001.5

Voor de WPV Adaptief hebben wij gekozen voor betweenitem multidimensionaliteit. Voor een deel was dit een pragmatische en praktische keuze: een betweenitem multidimensionaal model is eenvoudig, intuïtief, en sluit aan bij de traditie van factoranalyse om zoveel mogelijk uit te gaan van simple structures waarbij een item slechts één indicator is van een latente trek. Bovendien is een betweenitem model consistent met hoe de items ooit ontwikkeld zijn, namelijk om zo goed mogelijk één latente trek te meten. Ook voor de uiteindelijke eindgebruiker is een betweenitem model eenvoudiger uit te leggen dan een within-item model. Hier komt bij dat gezien het grote aantal items van de originele WPV Normatief (die als itembank dient), er enorm veel mogelijke kruisladingen zijn. Het is niet eenvoudig aan te tonen dat de ene kruislading wel in het model thuishoort, en een ander niet; bovendien loopt men bij kruisladingen het risico dat er gekapitaliseerd wordt op kans, en dat deze niet generaliseren naar verschillende steekproeven (Hopwood & Donnellan, 2010). Het betweenitem model heeft, omdat elke respons slechts afhankelijk is van één trek, het bijkomend voordeel dat bepaalde analyses (bijv. voor differential item functioning, zie Hoofdstuk 3.3) uitgevoerd kunnen worden – zonder al te veel verlies van statistische power – alsof de data ééndimensionaal is. Dit alles in ogenschouw nemend hebben wij gekozen voor het betweenitem model.

1.3.2. Het schatten van theta bij multidimensionele IRT

Conceptueel is het schatten op basis van MIRT niet zo heel anders dan bij IRT. Dit is zeker het geval bij between-item modellen, omdat het antwoord op een vraag nog steeds slechts afhangt van één latente trek, net als bij ééndimensionale IRT. Bij ééndimensionale IRT gaven we aan dat bij methoden als MAP ervan uitgegaan wordt dat een persoon (dus θ) getrokken is uit een populatie met een normale verdeling met een gemiddelde van 0 en een standaardafwijking van 1. Bij de MAP methode bij MIRT gaan we ervanuit dat een persoon (in dit geval dus meerdere theta’s tegelijk) getrokken is uit een multivariate normale verdeling met gemiddelden gelijk aan µ, en (co)variantiematrix Φ. In de praktijk wordt deze prior, dus de gemiddelden µ en (co)variantiematrix Φ op basis van een zeer grote steekproef geschat in de kalibratiefase van de testontwikkeling (zie sectie 1.4.1). Een duidelijk verschil tussen het schatten van theta(‘s) bij IRT en MIRT is dus de gehanteerde prior die informatie toevoegt aan de likelihood.

Een ander verschil is dat er bij IRT sprake is van één likelihood functie, bij MIRT zijn er evenveel functies als te schatten theta’s (in het geval van de WPV Adaptief zijn dit er 25). De schatting van de theta’s met behulp van de MAP-methode werkt overigens wel hetzelfde bij MIRT als bij IRT: op basis van een gegeven antwoordpatroon wordt nu gezocht naar theta’s waarbij de verschillende likelihood functies, gewogen met de prior, allemaal tegelijkertijd maximaal zijn. Bij IRT kan het vinden van het maximum van theta nog numeriek opgelost worden, bij MIRT moet dit echter via een iteratief proces gebeuren; op basis van verschillende iteraties wordt naar de theta’s gezocht waar de verschillende likelihood functies maximaal zijn. Er zijn verschillende algoritmes ontwikkeld om dit soort optimalisatie problemen op te lossen; bij de WPV Adaptief gebruiken we het Broyden–Fletcher–Goldfarb–Shanno (BFGS) algoritme.

Een volledige discussie van MIRT zou hier te veel ruimte kosten, maar de geïnteresseerde lezer verwijzen we door naar Reckase (2009). Belangrijk om hier nog te benoemen is het grote voordeel van MIRT: de relaties tussen latente trekken onderling worden benut om tot een nauwkeurigere schatting van de theta’s te komen (door middel van de prior zoals hiervoor besproken), en bij de itemselectie in de adaptieve test (zie sectie 1.4.3.).

1.4. Ontwikkeling van de WPV Adaptief

Een adaptieve test, zo ook de WPV Adaptief, bestaat uit een aantal vaste onderdelen:

  1. Itempool met bekende itemparameters (sectie 1.4.1.)
  2. Itemselectie (sectie 1.4.3.)
  3. Startregel (het is gebruikelijk om bij adaptieve testen uit te gaan van een gemiddelde score, dus θ = 0. Deze regel hanteren we ook bij de WPV Adaptief.)
  4. Stopregel (sectie 1.4.4.)

De methode van de θ-schatting is feitelijk ook een onderdeel van een adaptieve test, maar deze is in de voorgaande sectie al besproken (de multidimensionale variant van de MAP-methode). In dit hoofdstuk wordt de ontwikkeling van en de gemaakte keuzes voor elk onderdeel van de eerste versie van de WPV Adaptief kort beschreven.

1.4.1. Itempool

1.4.1.1. Eerste kalibratie

Iedere adaptieve test of vragenlijst begint met een itempool, dus een verzameling vragen die getoond kunnen worden aan de kandidaat. Bij de WPV Adaptief vormden de items van de reguliere WPV-N de itempool; hier moesten echter wel nog de itemparameters voor berekend worden. Hiervoor is een kalibratieonderzoek uitgevoerd, wat hieronder besproken wordt. In deze kalibratie werd er tevens onderzoek gedaan naar de juistheid van de gekozen modellen, en naar alternatieve mogelijkheden. De resultaten van deze onderzoeken worden hieronder ook besproken.

De WPV wordt ingezet in zowel advies- als selectiesituaties. Bij de ontwikkeling van de WPV Adaptief was dan ook het doel dat deze bruikbaar zou zijn voor beide testsituaties. In eerste instantie is begonnen met de ontwikkeling van de WPV Adaptief voor adviesdoeleinden, waarna later (zie sectie 3.3) gekeken is of de WPV Adaptief ook inzetbaar zou zijn in selectiesituaties. De onderzoeken tot en met sectie 3.1. zijn dus allen gebaseerd op data verkregen in adviessituaties.

Voor de eerste kalibratie en onderzoeken voor de keuze van het IRT-model zijn de behaalde scores van kandidaten die de WPV Normatief hadden ingevuld, opgehaald uit de Ixly database. Het ging hier om kandidaten die de WPV Normatief daadwerkelijk in adviessituaties hadden ingevuld; de kalibratie en onderzoeken zijn dus gebaseerd op personen die de vragenlijst gemaakt hebben onder dezelfde condities als waar de vragenlijst uiteindelijk voor dient. In totaal hadden we van 9242 personen gegevens over het geslacht, leeftijd en opleidingsniveau tot onze beschikking. Deze informatie is weergegeven in Tabel 1.2.

Tabel 1.2. Verdeling opleidingsniveaus in de ongewogen kalibratiesteekproef.
Freq.%Freq.%Categorie
Lagere school/basisonderwijs810.91
MAVO1431.51
VBO450.51
VMBO globaal3183.41
VMBO: basisberoepsgerichte leerweg (BB)320.31
VMBO: Gemengde leerweg (GL)90.11
VMBO: kaderberoepsgerichte leerweg (KB)250.31
VMBO: Theoretische leerweg (TL)480.51
VMBO Totaal4324.7
HAVO3974.32
VWO2172.32
MBO globaal203522.02
MBO 1: Assistent beroepsbeoefenaar100.12
MBO 2: Medewerker901.02
MBO 3: Zelfstandig medewerker1251.42
MBO 4: Middenkaderfunctionaris3163.42
MBO Totaal257627.9
HBO globaal278930.23
HBO: Oude stijl2983.23
HBO: Bachelor3934.33
HBO: Master560.63
HBO Totaal353638.3
WO globaal141215.33
WO: Bachelor410.43
WO: Master2442.63
WO: Doctorandus1021.13
WO: Doctor160.23
WO Totaal181519.6
Totaal9242100.0

Tijdens de periode van dataverzameling is een aantal keer de bevraging van de achtergrondkenmerken veranderd; zo werd eerst bijvoorbeeld meer algemeen naar de categorieën VMBO, MBO, HBO en WO gevraagd, terwijl dit later fijnmaziger werd bevraagd met specifiekere opleidingsniveaus (bijv. MBO 1). Vandaar dat deze meer algemene groepen (‘globaal’ in Tabel 1.2.) en specifiekere groepen zijn weergegeven in Tabel 1.2.

Uiteindelijk zijn deze groepen gecombineerd in drie categorieën die zo goed mogelijk de categorieën van het CBS weerspiegelen. Deze categorieën zijn weergegeven in de uiterst rechtse kolom. De verdeling wat betreft opleidingsniveaus wat betreft deze drie categorieën is weergegeven in Tabel 1.3.

Tabel 1.3. Verdeling opleidingsniveaus (CBS) ongewogen kalibratiesteekproef
Freq.%
Laag7017.6
Midden319034.5
Hoog535157.9
Totaal9242100.0

De verdeling wat betreft geslacht en leeftijd in de ongewogen kalibratiestreekproef is weergegeven in Tabel 1.4.

Tabel 1.4. Verdeling geslacht en leeftijd ongewogen kalibratiesteekproef
Freq.%
Geslacht
Man467350.6
Vrouw456949.4
Leeftijd
< 257528.1
25 – 35213623.1
35 – 45250027.1
45 – 55253327.4
> 55132114.3

De representativiteit van deze steekproef wat betreft geslacht, leeftijd en opleidingsniveau is vergeleken met de verdeling van deze drie achtergrondkenmerken in de Nederlandse beroepsbevolking in 2017 volgens de gegevens van het CBS. Uit de Chi2-toetsen bleek dat er een klein verschil in verdeling wat betreft geslacht was (χ2(1) = 19.61, p < .001, Cramer’s V = .05), een klein tot gemiddeld verschil wat betreft leeftijd (χ2(4) = 703.25, p < .001, Cramer’s V = .14) en een gemiddeld tot groot verschil wat betreft opleidingsniveau (χ2(2) = 2124.65, p < .001, Cramer’s V = .34). Er bevonden zich in onze steekproef relatief minder jongeren, en meer mensen van middelbare leeftijd (35 – 45 jaar). In onze steekproef bevonden zich relatief veel hoger opgeleiden en minder laag opgeleiden.

1.4.1.2. Gewogen steekproef

Om te corrigeren voor de verschillen tussen onze steekproef en de Nederlandse beroepsbevolking is een wegingsprocedure uitgevoerd. Allereerst zijn er 2 (geslacht) x 5 (leeftijd) x 3 (opleiding) = 30 strata gecreëerd waarna uit deze strata willekeurig een aantal personen werd getrokken met als doel (1) de verdeling wat betreft achtergrondkenmerken van het CBS zoveel mogelijk te benaderen en (2) de uiteindelijke steekproefgrootte op 3000 personen uit te laten komen. Deze grootte hielden we aan omdat we bepaald hadden dat bij een N van 3000 de balans optimaal was tussen een zo groot mogelijke steekproef en een zo klein mogelijke afwijking van de CBS verdelingen wat betreft geslacht, leeftijd en opleiding. Na weging was er geen verschil in verdeling wat betreft geslacht tussen de gewogen steekproef en het CBS (χ2(1) = .01, p = .91). Er waren slechts kleine tot gemiddelde verschillen voor leeftijd (χ2(4) = 41.89, p < .001, Cramer’s V = .06) en opleiding (χ2(2) = 30.82, p < .001, Cramer’s V = .07). De verdeling wat betreft geslacht, leeftijd en opleidingsniveau in de gewogen Adviesnormgroep is weergegeven in Tabel 1.5.

Tabel 1.5. Verdeling geslacht, opleidingsniveau en leeftijd gewogen normgroep – Advies.
Freq.%
Geslacht
Man158953.0
Vrouw141147.0
Opleiding
Laag50816.9
Midden134544.8
Hoog114738.2
Leeftijd
< 2536012.0
25 – 3566722.2
35 – 4563921.3
45 – 5577425.8
> 5556018.7

Helaas is er in de itemresponstheorie literatuur – en zeker in de literatuur over multidimensionale IRT – geen eenduidige richtlijn wat betreft de minimale steekproefgrootte voor een accurate schatting van de itemparameters (de kalibratie). Uit recent onderzoek dat specifiek op dit onderwerp focuste, is gebleken dat een steekgroep van N = 1000 een nauwkeurige schatting van itemparameters opleverde, en dat grotere steekproeven niet tot betere schattingen leidden; echter, dit onderzoek ging uit van slechts drie gecorreleerde trekken (Jiang, Wang & Weiss, 2016). In de WPV Adaptief hanteren we maar liefst 25 gecorreleerde schalen; het is dus lastig de resultaten van dit onderzoek naar onze situatie te generaliseren. Door een steekproefgrootte van N = 3000 te hanteren weten we in ieder geval dat we ruim boven de bovengrens van N = 1000 uit dit artikel zitten.

1.4.1.3. Standaardfouten van itemparameters bij verschillende kalibratiesteekproeven

Om de invloed van de grootte van de kalibratiesteekproef te onderzoeken hebben we gekeken naar de grootte van de standaardfouten van de geschatte itemparameters in beide kalibraties; hoe kleiner de standaardfout, hoe nauwkeuriger de schatting van de itemparameter. De gemiddelde itemparameters en standaardfouten zijn weergegeven in Tabel 1.6.

Tabel 1.6. Gemiddelde waarden itemparameters en standaardfouten voor gewogen en ongewogen steekproef.
ad1d2d3d4
MMSEMMSEMMSEMMSEMMSE
N = 30001.71.055.84.193.38.091.13.06-2.37.07
N = 92421.73.035.94.113.41.051.19.03-2.41.04

Uit Tabel 1.6. blijkt dat standaardfouten van de parameters een stuk kleiner zijn bij de grote, totale steekproef. In absolute zin is het verschil bij de eerste drempelwaarde (d1) het grootst, maar bij de derde drempelwaarde (d3) zien we dat de standaardfout bij de totale steekproef maar liefst de helft is van die bij de gewogen steekproef. Overigens valt op dat de gemiddelde waarden van de parameters zelf weinig verschillen tussen de steekproeven.

Uit bovenstaande analyse van de gemiddelde standaardfouten blijkt al dat bij de totale steekproef de itemparameters nauwkeuriger geschat worden dan bij de gewogen steekproef. Dit wordt nog duidelijker wanneer we kijken naar de maximale standaardfouten: voor de a-parameter was dit .05 (totaal) vs. .09 (gewogen), voor d1 .34 vs. 1.01, voor d2 .23 vs. .38, voor d3 .10 vs. .16 en voor d4 .10 vs. .17. Met name voor de d1 waarde is het verschil zeer groot; op basis van deze analyses hebben we besloten de eerste kalibratie te doen op de totale steekproef.

De invloed hiervan op de theta-schattingen hebben we bekeken door voor beide kalibraties de geschatte theta’s te vergelijken. In Tabel 1.7. zijn deze gemiddelde verschillen tussen de theta’s op basis van beide kalibraties weergegeven.

Tabel 1.7. Verschillen in theta-scores op basis van kalibratie op gewogen en ongewogen steekproeven.
Min.Max.MSD
Competitie-.11.30.09.02
Dominantie-.14.21.12.02
Status-.05.15.06.02
Zelfvertoon-.19.19.08.02
Contactbehoefte-.09.17-.01.02
Sociaal Ontspannen-.08.13.01.02
Zelfonthulling-.07.20.03.01
Vertrouwen-.07.23.08.02
Hartelijkheid-.16.11.00.03
Zorgzaamheid-.20.10-.06.03
Energie-.13.20.02.04
Zelfontwikkeling-.10.25.10.03
Volharding-.16.20-.01.03
Vernieuwing-.12.30.07.04
Originaliteit-.03.16.05.02
Onafhankelijkheid-.06.30.13.04
Ordelijkheid-.23.10-.09.03
Nauwkeurigheid-.25.12-.09.03
Regelmaat-.19.39-.11.02
Conformisme-.21.03-.12.02
Weloverwogen-.12.20.00.03
Zelfvertrouwen-.19.16.01.03
Positivisme-.08.15.06.02
Frustratietolerantie-.25.15-.02.02
Incasseringsvermogen-.14.14-.03.02
Gemiddelde.01

Uit Tabel 1.7. blijkt dat de theta-waarden geschat op basis van de gehele steekproef en de gewogen steekproef nauwelijks van elkaar verschilden. Het gemiddelde verschil was .01, en het maximaal gevonden verschil was .30. Dus, de keuze om de itemparameterschattingen op basis van de ongewogen steekproef te nemen in verband met de grotere nauwkeurigheid (kleinere standaardfouten), heeft uiteindelijk weinig invloed gehad op de geschatte theta’s.

1.4.2. Keuze van modellen

1.4.2.1. Het itemrespons model: GPCM vs GRM

Er zijn verschillende IRT-modellen ontwikkeld voor Likert-achtige vragenlijsten, waarbij het GRM en het Generalized Partial Credit Model (GPCM; Muraki, 1992) de meest gehanteerde zijn. Het ene model is niet per definitie beter dan het andere, de twee modellen verschillen voornamelijk in de assumpties waar ze op gebaseerd zijn. Om te onderzoeken welk model in ons geval het beste zou zijn, zijn beide modellen toegepast op de WPV-N data, waarna de fit van de modellen en de nauwkeurigheid van de theta-schattingen op basis van beide modellen vergeleken zijn.

In Tabel 1.8. zijn de fitwaarden en betrouwbaarheden (gemiddeld over de 25 schalen) voor de modellen op basis van het GRM en GPCM weergegeven.

Tabel 1.8. Model fitwaarden en betrouwbaarheid GPCM en GRM.
CFITLIRMSEAGem. EB
GPCM.834.831.072.91
GRM.867.864.065.93

Hoewel de fitwaarden niet heel sterk van elkaar verschilden, zien we dat de waarden voor het GRM net wat beter waren dan voor het GPCM. Bovendien was de empirische betrouwbaarheid bij het GRM ook wat hoger: voor elke schaal gold dat de betrouwbaarheden allemaal .01 tot .03 hoger waren in het GRM. Ook zagen we dat de discriminatieparameters hoger waren in het GRM, wat aanduidt dat het GRM over het algemeen meer informatie levert dan het GPCM, wat de nauwkeurigheid van de metingen ten goede zal komen. Op basis van deze analyses werd duidelijk dat het GRM beter presteerde dan het GPCM; daarom hebben we voor de WPV Adaptief voor het GRM gekozen.

1.4.2.2. Keuze voor het factormodel

Naast de keuze tussen verschillende IRT-modellen, kan er, wanneer er eenmaal voor een variant gekozen is, natuurlijk voor verschillende factormodellen gekozen worden. In ons geval hebben we daarom twee modellen met elkaar vergeleken: een model waarbij de 25 schalen geschat werden samen met de correlaties tussen deze schalen, en een model met een zogenaamde twotier structuur (Figuur 1.4.). In dit laatste model worden de 25 schalen geschat, evenals de hogere orde factoren Invloed, Sociabiliteit, Gedrevenheid, Structuur en Stabiliteit, en de correlaties tussen deze vijf factoren. In Tabel 1.9. zijn de fitwaarden van deze modellen weergegeven.

Figuur 1.4. Schematische weergave two-tier model voor twee van de vijf factoren.

Uitgangspunten van de testconstructie

Noot. Rechthoeken zijn items, ellipsen zijn latente trekken.

Uit Tabel 1.9. blijkt dat het model met 25 gecorreleerde schalen een betere fit geeft dan het two-tier model: het verschil in χ2 waarden is significant, en de AIC en BIC waarden zijn lager (lagere waarden indiceren een betere fit). Op basis van deze analyses hebben we gekozen voor een model met 25 gecorreleerde schalen.

Tabel 1.9. Model fitwaarden van two-tier en oblique modellen.
AICAICcSABICBIClogLikΔχ2Δdfp
Two-tier2017019202118620217322027025-1006843.4
Oblique1868529187281118732811878619-932584.3148518.2140

1.4.2.3. Lokale onafhankelijkheid: analyse van residuen

Eén van de assumpties van IRT is lokale onafhankelijkheid; dit houdt in dat iedere samenhang tussen twee items volledig verklaard moet kunnen worden door de latente trek(ken) die deze items meten. Dus, de kans op een respons op een item (wat construct X meet) zou niet gerelateerd moeten zijn aan de kans op een respons op een ander item (van construct X) voor respondenten met dezelfde theta. In statistische termen betekent dit dat de itemresiduen ongecorreleerd zouden moeten zijn. Of dit het geval is hebben wij onderzocht bij de WPV Adaptief door voor elke itemcombinatie (in totaal 300) de residuen te berekenen (met behulp van de residuals functie in het mirt pakket (Chalmers, 2012) voor R; R Core Team, 2017). Deze residuen zijn gestandaardiseerd, en vervolgens te interpreteren als Cramer’s V-waarden met 4 vrijheidsgraden (het aantal antwoordcategorieën – 1). Deze waarden zijn vervolgens te kwalificeren als klein, gemiddeld en groot aan de hand van richtlijnen van Cohen (1988). In Tabel 1.10. is de indeling van de residuen in deze categorieën weergegeven.

Tabel 1.10. Cramer’s V waarden van residuen.
<. 05.05 – .15.15 – .25> .25
kleinklein – gemiddeldgemiddeld – grootgroot
Aantal items0%65%34%2%

De residuen zijn over het algemeen voldoende; de meeste bevinden zich in de categorie klein – gemiddeld. Analyses van de itemparen die hoge waarden lieten zien, toonden aan dat deze hoge waarden te verwachten waren. Zo werd de maximale waarde (.35) gevonden voor een item van Positivisme (“Voelt zich vaak moedeloos”) en Energie (“Heeft weinig energie”). Moedeloosheid en het hebben van weinig energie zullen vaak synoniem zijn, en zullen dus een hoge mate van overlap laten zien, wat niet helemaal ‘weg verklaard’ kan worden door de schalen Energie en Positivisme en hun correlatie.

Een ander voorbeeld is “Neemt in een groep beslissingen” (Dominantie) en “Stelt zich in gezelschap afwachtend op” (Sociaal ontspannen), met een residu van .26. In dit laatste voorbeeld zorgen de woorden ‘groep’ en ‘gezelschap’ waarschijnlijk voor de residuele correlatie tussen de items; de overeenkomst tussen deze woorden zal ervoor zorgen dat de items meer samenhangen dan verwacht. Het is algemeen bekend dat de bewoordingen in persoonlijkheidsvragenlijsten vaak voor residuele correlaties kunnen zorgen (Hopwood & Donnellan, 2010). Voor een deel is dit dus inherent aan de manier waarop persoonlijkheid via zelfrapportage vragenlijsten gemeten wordt.

Gebaseerd op onze analyses van de residuen en bovenstaande beschreven bevindingen, is geconcludeerd dat de items voldoende mate van lokale onafhankelijkheid laten zien. Alle items zijn daarom in de itempool behouden voor de eerste versie van de WPV Adaptief.

1.4.3. Itemselectie

Na elk gegeven antwoord moet het beste nieuwe item gezocht worden. Het beste item is bij ééndimensionale adaptief tests meestal het item dat de meeste informatie geeft op het interim theta-niveau. De discriminatie-parameter, a, van een item bepaalt hierbij hoe discriminerend, dus hoe informatief een item, is: hoe hoger de discriminatie-waarde, hoe meer informatie een item in principe levert. Echter, de hoeveelheid informatie die een item levert, is afhankelijk van de positie op de theta-schaal (dus hoog iemand scoort op een bepaalde trek). Dit komt naar voren in onderstaande Figuur 1.5., waar de iteminformatiefuncties zijn weergegeven van dezelfde twee items als in Figuur 1.2.:

Figuur 1.5. Iteminformatiefuncties van Uitgangspunten van de testconstructietwee GRM-items van de schaal Competitie.

Duidelijk is dat het ene item (de groene lijn) over de gehele linie genomen meer informatie levert dan het andere (de rode lijn); de a-parameter van het rode item is dus hoger dan die van het groene item. Bij de meeste waarden op Competitie zou het groene item dus het beste item zijn om te selecteren in de adaptieve test. Echter, we zien dat bij een zeer hoge mate van Competitie (bijvoorbeeld bij een score van 4) het rode item meer informatie levert dan het rode, en dus voor personen met die score juist het beste item zou zijn. Dit basisprincipe, het tonen van het item dat voor de gegeven theta de meeste informatie oplevert, vormt de basis van de itemselectie bij de WPV Adaptief.

Het bovenstaande is echter van toepassing bij ééndimensionale tests. Bij multidimensionale tests is de uitkomst van de iteminformatiefunctie niet één waarde, maar een matrix (in ons geval een 25×25 matrix), en afhankelijk van alle 25 theta’s tegelijk. Bovendien wordt in het Bayesiaanse multidimensionale model dat wij hanteren (Segall, 1996) aan de informatiematrix ook nog de prior informatie toegevoegd, door deze prior bij de informatiematrix op te tellen. Deze prior is de inverse van de correlatiematrix tussen de schalen van de test of vragenlijst. De informatiewaarde van een item wordt vervolgens bepaald door de determinant (vandaar de naam D-optimaliteit van deze methode) van de uiteindelijke opgetelde matrix te nemen. Dit levert voor ieder item één getal op, waarbij een hogere waarde meer informatie betekent; in de WPV Adaptief wordt het item met de hoogste waarde getoond.

Net als bij ééndimensionale adaptieve tests zijn er verschillende itemselectie methoden te onderscheiden bij multidimensionale adaptieve tests. Bij de WPV Adaptief hebben we zoals gezegd gekozen voor de D-optimaliteit methode. Deze keuze is deels gebaseerd op eerdere bevindingen bij andere multidimensionale tests uit de literatuur; de D-optimaliteit methode levert een nauwkeurige schatting van de theta’s op met relatief weinig items (Mulder & Van der Linden, 2009; Yao, 2012). Daarbij bleek uit eerste simulaties dat deze methode ook bij de WPV Adaptief nauwkeurige schattingen opleverde.

Aangezien de WPV Adaptief in totaal 25 schalen meet, moet er in het itemselectie-algoritme voor gezorgd worden dat alle schalen aan bod komen. Gebaseerd op de literatuur (Yao, 2012) is er daarom een weging in het algoritme opgenomen, waarbij items van schalen waar nog weinig informatie over is (dus die nog een hoge SEM hebben) een grotere weging krijgen en dus een grotere kans hebben om getoond te worden.

1.4.4. Stopcriterium

De meest gebruikte stopregel in adaptieve tests is stoppen wanneer de mate van precisie (uitgedrukt in de SEM-waarde van de geschatte latente trek) een bepaalde drempelwaarde bereikt heeft. De test stopt dan wanneer SEM < x is, waarbij x een van te voren bepaald criterium, dus mate van precisie, is. We hebben bij de WPV Adaptief in eerste instantie gekozen voor een waarde van 0.44, wat theoretisch overeenkomt met een betrouwbaarheid van ongeveer .80 (1-0.194 = 0.80; Thissen, 2000). Voor tests die gebruikt worden bij belangrijke beslissingen – zoals personeelsselectie waar de WPV Adaptief mede voor ontwikkeld is – is dit voldoende op schaalniveau (> .80; Cotan, 2009). Een lagere SEM (dus hogere mate van betrouwbaarheid) is ook overwogen, echter, we zagen in simulatiestudies dat met een stopcriterium van .44 de betrouwbaarheden van de schalen hoger (dus de SEM’s lager) uitvielen dan gedacht (zie sectie 2.2). Dit komt door het multidimensionale karakter van de vragenlijst: door middel van onderlinge correlaties geeft een item van de schaal Contactbehoefte bijvoorbeeld ook informatie over de schaal Zelfonthulling. Hierdoor zal wanneer een item van Contactbehoefte getoond wordt ook de SEM van Zelfonthulling naar beneden gaan.

In eerste simulaties viel op dat sommige personen erg veel items nodig hadden, terwijl hun metingen in absolute zin niet nauwkeuriger werden door de extra aangeboden items. Bij de WPV Adaptief streven we naar een zo nauwkeurig mogelijke vragenlijst, maar ook naar een zo kort mogelijke afnametijd om de beleving van de kandidaat te optimaliseren. In de literatuur zijn verschillende oplossingen voorgedragen voor dit probleem; een simpele methode is bijvoorbeeld de adaptieve test te stoppen na een vast aantal items. Een andere, meer complexe methode, is te kijken naar de reductie in SEM, en te stoppen met het aanbieden van items van een bepaalde trek wanneer de reductie in SEM te klein is (Yao, 2013). In simulatiestudies zijn verschillende oplossingen voor dit probleem onderzocht bij de WPV Adaptief. Uiteindelijk bleken bovenstaande twee oplossingen niet gewenst, omdat er of teveel aan nauwkeurigheid ingeboet werd, of omdat het algoritme te complex werd voor afname in de praktijk. Uit de studies bleek dat een maximum van 6 items per latente trek de optimale balans van nauwkeurigheid en afnametijd gaf. Uiteindelijk is er dus voor gekozen om de adaptieve test te stoppen wanneer de SEM < 0.44 is voor alle schalen, of te stoppen wanneer voor iedere schaal al 6 items aangeboden zijn. Gezien de WPV Adaptief 25 schalen meet betekent dit in de praktijk dat het maximale aantal items (25 x 6 =) 150 is.