Handleiding Werkgerelateerde Persoonlijkheid Vragenlijst Adaptief

Normen Adaptieve Persoonlijkheidsvragenlijst

3.1. Eerste Adviesnormgroep

Bij de gewogen steekproef (zie pagina 13) is de eerste versie van de WPV Adaptief gesimuleerd, waarbij de adaptieve test ingericht werd met de specificaties zoals hiervoor beschreven: de startwaarden van de theta’s werden op 0 gezet, itemselectie op basis van D-optimaliteit, een stopcriterium van SEM < .44, gecombineerd met een limiet van maximaal 6 items per schaal.

Nadat iedere persoon in de gewogen steekproef de WPV Adaptief had doorlopen, zijn de theta-scores genormeerd met de continue fit-methode (zie Van der Woud, 2008). Voor een uitgebreide uitleg over hoe van ruwe scores gekomen wordt tot stenscores verwijzen we naar de handleiding van de WPV Compact (Ixly, 2012, p. 50-55). De kenmerken van de ruwe scores en de stenscores (weergegeven in de rapportage van de WPV Adaptief) zijn beschreven in Tabel 1.14.

Tabel 1.14. Kenmerken van de ruwe scores en stenscores Adaptieve WPVN, normgroep (N = 3000).
Ruwe scoresLatente (sten)scores
Min.Max.MSDSPMin.Max.MSDSP
Competitie-3.993.850.011.120.110.15.1510.595.501.87-.01-.12
Dominantie-4.254.480.011.27-0.080.04-.3011.585.501.89.01-.03
Status-3.763.880.001.16-0.070.09.3411.325.501.87.01-.12
Zelfvertoon-3.904.780.041.21-0.110.30*.6910.985.501.88.02-.15
Contactbehoefte-4.583.610.001.20-0.14**0.33*.6210.355.501.87-.02-.18
Sociaal Ontspannen-4.964.08-0.011.26-0.090.08.3410.925.501.88.00-.15
Zelfonthulling-3.923.720.011.13-0.12*0.17.3610.815.501.86.02-.11
Vertrouwen-4.443.720.011.12-0.17**0.22.7111.145.501.86.02-.07
Hartelijkheid-4.404.020.001.230.07-0.01.0010.355.501.88-.02-.14
Zorgzaamheid-4.693.700.001.160.15**0.02.409.585.501.86-.08-.12
Energie-4.484.69-0.031.270.030.10.1810.415.501.88-.02-.16
Zelfontwikkeling-4.364.20-0.041.170.02-0.13-.4010.335.501.86-.05-.08
Volharding-4.083.78-0.071.150.05-0.031.0711.265.501.86.02.11
Vernieuwing-4.804.24-0.021.26-0.110.23.3310.765.501.88-.01-.15
Originaliteit-3.913.09-0.021.180.02-0.26*-.5110.165.501.88-.02-.16
Onafhankelijkheid-3.723.65-0.011.030.27**0.091.0311.425.501.83.00.12
Ordelijkheid-3.832.89-0.071.10-0.05-0.10-.2010.145.501.85-.03-.18
Nauwkeurigheid-4.103.06-0.061.10-0.04-0.03.229.865.501.86-.04-.22
Regelmaat-4.073.82-0.021.130.110.09.1810.335.501.87-.01-.14
Conformisme-3.913.24-0.031.120.050.19.7811.545.501.85.03-.10
Weloverwogen-4.273.30-0.041.07-0.040.40*.8410.085.501.85-.02-.17
Zelfvertrouwen-4.414.15-0.011.24-0.22**0.19.6711.665.501.89.04-.09
Positivisme-4.953.95-0.021.22-0.14**0.23*.4511.475.501.87.01-.10
Frustratietolerantie-4.353.320.001.17-0.15**0.13.3011.265.501.87.01-.12
Incasseringsvermogen-4.633.870.011.19-0.16**0.42*.6410.575.501.87.02-.13
Noot. * > 2.58, ** > 3, S = Scheefheid, P = Platheid

Met een asterisk (*) is aangegeven wanneer de Z-score (verkregen door de waardes door hun standaardfout te delen) van de scheefheid en kurtosis (platheid) de grens ± 2.58 overstijgt. Deze drempelwaarde wordt vaak gehanteerd als indicatie dat een verdeling van de theoretische normale verdeling afwijkt. Er zijn 9 schalen waarbij de ruwe scores een wat schevere verdeling dan verwacht laten zien, en 6 schalen waar de verdelingen een wat hogere piek laten zien dan verwacht. Echter, de vuistregel van ||Z||>2.58 wordt door sommigen als erg streng gekwalificeerd, en zij hanteren daarom liberalere regels waarbij absolute waarden van scheefheid > 3 en kurtosis > 8 (of zelf >10) gelden als een indicatie voor een afwijking van de normale verdeling (Kline, 2005). Gebaseerd op deze regels (zie Tabel 1.14.) kunnen we over het algemeen concluderen dat de ruwe scores van WPV Adaptief redelijk normaal verdeeld zijn in de normgroep.

3.2. Onderzoek naar differential item functioning (DIF) tussen Advies- en Selectiegroep

De WPV wordt ingezet in zowel advies- als selectiesituaties. Bij de ontwikkeling van de WPV Adaptief was dan ook het doel dat deze bruikbaar zou zijn voor beide testsituaties. Ten behoeve hiervan zijn twee belangrijke stappen ondernomen: eerst is onderzocht of de items hetzelfde functioneren wanneer kandidaten de vragenlijst in advies- of in selectiesituaties maken, om vervolgens een representatieve selectienormgroep te creëren. De onderzoeken die hiervoor gedaan zijn worden hieronder besproken.

Allereerst zijn de gegevens en scores opgehaald van kandidaten die de WPV-N daadwerkelijk in selectiesituaties hadden ingevuld. In totaal hadden we van 9110 personen gegevens over het geslacht, leeftijd en opleidingsniveau. De informatie wat betreft opleidingsniveau is weergegeven in Tabel 1.15.

Tabel 1.15. Verdeling opleidingsniveaus in ongewogen kalibratiesteekproef – Selectie.
Freq.%Freq.%Categorie
Lagere school/basisonderwijs80.11
VMBO globaal901.01
VMBO: basisberoepsgerichte leerweg (BB)120.11
VMBO: Gemengde leerweg (GL)50.11
VMBO: kaderberoepsgerichte leerweg (KB)80.11
VMBO: Theoretische leerweg (TL)320.41
VMBO Totaal1471.6
HAVO1912.12
VWO1211.32
MBO globaal132714.62
MBO 1: Assistent beroepsbeoefenaar70.12
MBO 2: Medewerker360.42
MBO 3: Zelfstandig medewerker850.92
MBO 4: Middenkaderfunctionaris3944.32
MBO Totaal184920.3
HBO globaal310334.13
HBO: Oude stijl2662.93
HBO: Bachelor6947.63
HBO: Master500.53
HBO Totaal411345.1
WO globaal195421.43
WO: Bachelor850.93
WO: Master4775.23
WO: Doctorandus1451.63
WO: Doctor200.23
WO Totaal268129.4
Totaal9110100

Uiteindelijk zijn deze groepen net als bij de Adviesgroep gecombineerd in drie categorieën die zo goed mogelijk de categorieën van het CBS weerspiegelen. Deze categorieën zijn weergegeven in de uiterst rechtse kolom. De verdeling wat betreft opleidingsniveaus wat betreft deze drie categorieën is weergegeven in Tabel 1.16.

Tabel 1.16. Verdeling opleidingsniveaus (CBS) ongewogen kalibratiesteekproef – Selectie.
Freq.%
Laag1551.7
Midden216123.7
Hoog679474.6
Totaal9110100

De verdeling wat betreft geslacht en leeftijd in de ongewogen Selectiesteekproef is weergegeven in Tabel 1.17.

Tabel 1.17. Verdeling geslacht en leeftijd ongewogen kalibratiesteekproef – Selectie.
Freq.%
Geslacht
Man484753.2
Vrouw426346.8
Leeftijd
< 25116012.7
25 – 35300933.0
35 – 45226524.9
45 – 55203422.3
> 556427.0

De representativiteit van deze steekproef wat betreft geslacht, leeftijd en opleidingsniveau is vergeleken met de verdeling van deze drie achtergrondkenmerken in de Nederlandse beroepsbevolking in 2017 volgens de gegevens van het CBS. Uit de Chi2-toetsen bleek dat er geen verschil in verdeling wat betreft geslacht was (χ2(1) = 0.43, p = .51), een gemiddeld tot groot verschil wat betreft leeftijd (χ2(4) = 1385.92, p < .001, Cramer’s V = .20) en een groot verschil wat betreft opleidingsniveau (χ2(2) = 6056.91, p < .001, Cramer’s V = .58). Er bevonden zich in onze steekproef relatief meer jongere mensen (25 – 35 jaar), en minder mensen met een hogere leeftijd (35 – 45 jaar). In onze steekproef bevonden zich relatief veel hoger opgeleiden en minder middelbaar en lager opgeleiden.

Wanneer scores van kandidaten verkregen worden via vragenlijsten is het belangrijk dat de vragenlijsten rechtvaardig (fair) zijn: rechtvaardig betekent dat geen onterechte vertekening (bias) ontstaat bij individuele uitkomsten en dat alleen reële verschillen tussen individuen zichtbaar worden in relatie tot de beroepspopulatie. Eén mogelijke veroorzaker van bias is de testsituatie waarin de kandidaat de vragenlijst maakt; het is bekend dat sollicitanten vaak wat sociaal wenselijker antwoorden om zo hun kans op de baan te vergroten. Hoewel we weten dat dit leidt tot (gemiddelde) verschillen tussen scores verkregen in selectiesituaties en andere situaties (bijv. onderzoek of adviessituaties; zie Birkeland, Manson, Kisamore, Brannick, & Smith, 2006), is niet geheel duidelijk in de literatuur wat het effect van de testsituatie op itembias is (zie bijv. O’Brien & LaHuis, 2011; Robie, Zickar, & Schmit, 2001; Stark, Chernyshenko, Chan, Lee, & Drasgow, 2001; Stark, Chernyshenko, & Drasgow, 2004).

Itembias houdt in dat personen uit de ene groep (bijvoorbeeld sollicitanten) op een andere manier reageren op een item of een item anders interpreteren dan een andere groep (bijvoorbeeld personen die een vragenlijst maken voor loopbaanontwikkeling). Om dit te onderzoeken hebben we een aantal DIF (differential item functioning, zie bijvoorbeeld Zumbo, 1999) analyses uitgevoerd: deze analyses toetsen de hypothese dat de scores op items tussen twee personen uit verschillende groepen niet significant van elkaar verschillen, wanneer de (latente) score op het construct dat dit item meet constant gehouden wordt. Met andere woorden, twee personen uit verschillende groepen (bijvoorbeeld een sollicitant en een loopbaan kandidaat) met dezelfde ‘ware’ mate van Contactbehoefte moeten dezelfde kans hebben op een bepaald gegeven antwoord (bijvoorbeeld ‘helemaal eens’).

3.2.1. DIF op basis van DFIT

De eerste methode die we gehanteerd hebben is de DFIT-methode (Raju, van der Linden, & Fleer, 1995). In deze methode worden de ‘ware’ scores op basis van itemparameters gekalibreerd op de referentiegroep (Advies) vergeleken met geschatte scores op basis van itemparameters gekalibreerd op de focale groep (Selectie). Hiervoor worden per item de volgende stappen ondernomen:

  1. Voor de focale groep worden de itemparameters geschat en vervolgens de theta-scores berekend
  2. Voor de referentiegroep worden de itemparameters geschat
  3. Vervolgens worden voor de theta’s verkregen bij (1) de voorspelde waarde op een item berekend op basis van de itemparameters verkregen bij (1) en voor de itemparameters verkregen bij (2)
  4. Vervolgens wordt het gemiddelde genomen van het gekwadrateerde verschil tussen de voorspelde waarden verkregen onder (3). Dit is de NCDIF-statistiek (Raju et al., 1995).

Wanneer itemkalibraties op twee verschillende steekproeven zijn gebaseerd, dan dienen de itemparameters op dezelfde schaal gezet te worden door middel van linking. In lijn met eerdere onderzoeken (O’Brien & LaHuis, 2011; Raju et al., 1995; Robie et al., 2001) hebben we de adviesparameters gelinkt aan de parameters gekalibreerd op basis van de Selectiegroep. Dit is gedaan volgens de multidimensionale uitbreiding van de methode van Haebara (1980), met behulp van het plink pakket (Weeks, 2010) in R (R Core Team, 2017).

3.2.1.1. Resultaten DIF op basis van DFIT

Gezien de grootte van onze steekproeven hebben we niet gekeken naar de significantieniveaus[1] van de NCDIF-waarden maar naar de effectgrootten (ESSD; zie Meade, 2010); deze ESSD-waarden kunnen geïnterpreteerd worden als Cohen’s-waarden. De gevonden effectgrootten en de interpretatie hierbij is weergegeven in Tabel 1.18.

Tabel 1.18. Gevonden ESSD-waarden bij items van de WPV Adaptief.
Gemiddeld-grootKlein-gemiddeldKleinKlein-gemiddeldGemiddeld-groot
>-0.80 <-0.50>-0.50 <-0.20>-0.20 <0.20>0.20 <0.50>0.50 <0.80
Aantal items05192736
%01.869.626.42.2

Uit de analyses bleek dat de meerderheid van de items een geringe mate van DIF vertoonden. Het feit dat de meeste waarden positief zijn, komt overeen met de verwachting dat bij een gelijke ‘ware’ score op een bepaalde trek, personen in een selectiesituatie een hogere kans hebben het eens te zijn met een antwoord omdat ze overal ‘een schepje bovenop doen’. Opvallend was echter wel dat bij iedere schaal er zowel positieve als negatieve DIF plaatsvond, dit betekent dat het niet altijd het geval was dat bij een gelijke score op een bepaalde trek de kans op een positief antwoord altijd hoger was bij de Selectiegroep. Sollicitanten lijken dus niet ongeacht het item een hogere kans op een positief antwoord te hebben.

Slechts 2.2% van de items vertoonden een gemiddeld tot grote mate van DIF. Om te onderzoeken in hoeverre de items die de meeste DIF lieten zien getoond werden in de WPV Adaptief, is gekeken naar de 20 items met de hoogste absolute ESSD-waarden. Hieruit bleek dat deze items gemiddeld in slechts 1.6% van de gevallen aan een kandidaat getoond werden (SD = 2.2, Min. = .01, Max. = 8.3). Hieruit blijkt dat het effect van DIF in de praktijk bij de WPV Adaptief waarschijnlijk weinig invloed op de scores zal hebben.

3.2.1.2. Resultaten DTF op basis van DFIT

Ook op schaalniveau zijn de ESSD-waarden berekend (zie Tabel 1.19.). Afgaande op de richtlijnen van Cohen (1988) zien we dat de meeste schalen een geringe mate van DTF vertonen, met iets grotere effecten voor Positivisme en Frustratietolerantie (hoewel deze nog steeds als relatief klein beschouwd kunnen worden). De schalen van de WPV Adaptief lijken zich dus niet anders te gedragen in selectiesituaties in vergelijking met adviessituaties.

Tabel 1.19. Gevonden ESSD-waarden bij de schalen van de WPV Adaptief.
ESSD
Competitie0.00
Dominantie-0.05
Status0.04
Zelfvertoon-0.03
Contactbehoefte-0.02
Sociaal ontspannen0.16
Zelfonthulling0.04
Vertrouwen0.08
Hartelijkheid0.19
Zorgzaamheid0.12
Energie0.03
Zelfontwikkeling0.02
Volharding0.04
Vernieuwing0.07
Originaliteit0.13
Onafhankelijkheid0.06
Ordelijkheid0.07
Nauwkeurigheid0.00
Regelmaat-0.02
Conformisme-0.12
Weloverwogen0.04
Zelfvertrouwen0.07
Positivisme0.31
Frustratietolerantie0.24
Incasseringsvermogen0.06

3.2.2. Ordinale logistische regressie (OLR)

Omdat de statistische power van de verschillende methoden om DIF te detecteren verschilt, wordt aangeraden om meerdere methoden van onderzoek te gebruiken (Wood, 2011). We hebben daarom ook DIF en DTF onderzocht door middel van ordinale logistische regressie (OLR).

Hiervoor hebben we het hiërarchische model van Zumbo (1999) gebruikt:

Model 1: Eerst wordt een ordinale logistische regressie uitgevoerd met het item als de afhankelijke variabele en de totaalscore (theta) op het construct dat door dit item gemeten wordt als onafhankelijke variabele.

Model 2: Vervolgens wordt de groepsvariabele als onafhankelijke variabele ingevoerd (in ons geval Advies/Selectie).

Model 3: Vervolgens wordt de interactie tussen de totaalscore en de groepsvariabele als onafhankelijke variabele ingevoerd.

Er zijn twee voorwaarden die bepalen wanneer we kunnen spreken van substantiële DIF. Allereerst kan de fit van deze modellen aan de hand van hun χ2 waarden vergeleken worden. Als de p-waarde van het verschil in χ2 waarden van Model 3 en Model 1 (met 2 vrijheidsgraden) kleiner is dan 0.01 (een α van 1% is hier nodig, omdat meerdere hypotheses getoetst worden; Zumbo, 1999), dan is Model 3 dus significant beter dan Model 1 en kan er sprake zijn van DIF.

In het voorgaande wordt aangegeven dat er ‘sprake kan zijn van DIF’: onder invloed van bijvoorbeeld de steekproefgrootte, relatieve grootte van de focale- en referentiegroep en de kenmerken van de items kan de χ2-waarde significant worden (Lei et al., 2006; Swaminathan & Rogers, 1990; Zumbo, 1999). De tweede voorwaarde is daarom dat er aanzienlijke effectgrootten moeten zijn voordat er sprake kan zijn van substantiële DIF (Kirk, 1996; Zumbo, 1999; Zumbo & Hubley, 1998). Hiervoor wordt het verschil in verklaarde variantie, ΔR2, tussen de verschillende modellen gebruikt. Jodoin en Gierl (2001) hanteren de categorieën: 0 – .035 als verwaarloosbaar, .035 – .07 als matig en >.07 als sterk. In het huidige onderzoek hanteren we deze vuistregel. Alleen wanneer aan de beide voorwaarden (significantie en een substantiële effectgrootte) voldaan wordt dan kunnen we spreken van substantiële DIF.

Bovenstaande test met 2 vrijheidsgraden kan gezien worden als een omnibus test voor zowel uniforme als non-uniforme DIF. Een manier om vervolgens inzicht te krijgen in de mate van uniforme- en non-uniforme DIF is door de R2-waarden van Model 2 en Model 3 te vergelijken. Het verschil in R2-waarden tussen Model 1 en Model 3 is namelijk additief (bijvoorbeeld ΔR2M3-M1 = .10): de ΔR2 tussen Model 1 en Model 2 is representatief voor uniforme DIF (bijvoorbeeld ΔR2M2-M1 = .08), de ΔR2 tussen Model 3 en Model 2 is representatief voor non-uniforme DIF (bijvoorbeeld ΔR2M3-M2 = .02).

Het effect van DIF op schaalniveau (DTF) kan ook onderzocht worden door:

  1. voor ieder item de voorspelde score te berekenen op basis van het geschatte logistische model
  2. voor iedere schaal de voorspelde schaalscore te berekenen door de scores verkregen onder (1) per schaal te sommeren en
  3. deze voorspelde schaalscores in een grafiek af te zetten tegen de theta-scores, met aparte lijnen voor de Advies- en Selectiegroep.

Voordat we over konden gaan op onze analyses is eerst een gezamenlijke kalibratie uitgevoerd van de Advies- en Selectiegroep. Hiervoor werden deze twee groepen samengevoegd tot één steekproef (N = 18352), waarna eerst de itemparameters voor deze gecombineerde groep werden berekend en vervolgens de theta’s.

3.2.2.1. Resultaten DIF op basis van OLR

Uit de analyses bleek dat 211 van de 276 items (76%) potentiële DIF vertoonden op basis van het significantieniveau (M3 – M1). Echter, zoals vermeld dient ook gekeken te worden naar de effectgrootte. Hieruit bleek dat de maximaal gevonden effectgrootte slechts 0.016 was: dit ligt in de categorie tussen de 0 en 0.035 wat als ‘verwaarloosbaar’ gekenmerkt kan worden. Dit houdt in dat er op basis van deze analyses nauwelijks sprake van DIF op basis van testsituatie blijkt te zijn bij de items van de WPV Adaptief.

3.2.2.2. Resultaten DTF op basis van OLR

Voordat we de resultaten van de DTF analyses toelichten is het interessant om te vermelden dat er, zoals verwacht op basis van de literatuur, verschillen in gemiddelde theta’s waren tussen Advies en Selectie. De gemiddelde Cohen’s d waarde over de 25 schalen was 0.34 (SD = 0.21, Min. = -0.31, Max. = 0.59). Het feit dat deze gemiddelde waarde positief is, duidt erop dat de scores voor de Selectiegroep, zoals verwacht, over het algemeen hoger waren dan voor de Adviesgroep. Ook waren er verschillen in gemiddelde voorspelde schaalscores (gemiddelde Cohen’s d van 0.34). Echter, er bleken weinig verschillen wanneer de behaalde theta-score constant gehouden werd tussen de groepen; de geringe DIF effecten op itemniveau vertaalden zich dus door naar geringe effecten op schaalniveau.

Een voorbeeld hiervan is te zien in Figuur 1.7., voor de schaal Positivisme, waarvoor het verschil in gemiddelde (voorspelde) scores het grootst was (d = 0.60). Uit het figuur is af te lezen dat bij een gelijke score op Positivisme (theta), de voorspelde score op basis van het logistische model nagenoeg hetzelfde is voor Advies en Selectie. Dus, hoewel er verschillen in gemiddelde scores zijn, lijken de schalen van de WPV Adaptief zich niet anders te gedragen in advies- en selectiesituaties.

Figuur 1.7. Logistisch model op de schaal Positivisme

Uitgangspunten van de testconstructie

3.2.3. Conclusie onderzoek DIF en DTF tussen Advies- en Selectiegroep

Op basis van twee verschillende methoden is onderzocht of de items van de WPV Adaptief anders functioneren wanneer deze onder adviessituaties ingevuld worden of onder selectiesituaties. Op basis van de methode van DFIT kwamen er enkele verschillen naar voren, hoewel deze (1) niet erg groot waren en (2) bij items voorkwamen die relatief weinig getoond worden in de WPV Adaptief. Op schaalniveau werden ook verschillen gevonden, maar ook deze waren van geringe grootte. De grootste effecten werden gevonden voor Positivisme en Frustratietolerantie. Hierbij dient ook opgemerkt te worden dat de analyses gebaseerd zijn op de gehele WPV-N: gezien het feit dat de grotere effecten op itemniveau gevonden werden voor weinig getoonde items, mag verwacht worden dat de effecten op schaalniveau bij de WPV Adaptief nog kleiner zijn.[2]

Om de behaalde resultaten te verifiëren is ook via logistische regressie DIF en DTF onderzocht. Hieruit bleek dat er weinig tot geen sprake was van DIF of DTF. Uit de analyses bleek wel dat er verschillen in gemiddelde scores waren, waarbij de Selectiegroep over het algemeen hoger scoorde dan de Adviesgroep. Dit is een bekend gegeven uit de selectie- en assessment literatuur (Birkeland et al., 2006). De resultaten van beide methoden samen nemend is geconcludeerd dat de items niet anders functioneren onder de verschillende testsituaties; daarom is besloten de Selectiegroep simpelweg te scoren met de itemparameters gekalibreerd op de Adviesgroep, maar wel een Selectienormgroep te hanteren om voor vertekeningen in gemiddelde scores te corrigeren.

3.3. Ontwikkeling Selectienormgroep

Net als bij de Adviesnormgroep is er door middel van het trekken van een steekproef uit de ongewogen groep een representatieve normgroep wat betreft leeftijd, opleiding en geslacht gecreëerd. Bij een N van 1000 was de balans tussen een zo groot mogelijke steekproef en een zo klein mogelijke afwijking van de CBS verdelingen wat betreft geslacht, leeftijd en opleiding optimaal. Na weging was er geen verschil in verdeling wat betreft geslacht tussen de gewogen steekproef en het CBS (χ2(1) = .06, p = .80). Er waren slechts kleine tot gemiddelde verschillen voor leeftijd (χ2(4) = 18.25, p < .001, Cramer’s V = .07) en opleiding (χ2(2) = 33.79, p < .001, Cramer’s V = .13). De verdeling wat betreft geslacht, leeftijd en opleidingsniveau in de gewogen Selectienormgroep is weergegeven in Tabel 1.20.

Tabel 1.20. Verdeling geslacht, opleidingsniveau en leeftijd gewogen normgroep – Selectie.
Freq.%
Geslacht
Man52552.5
Vrouw47547.5
Opleiding
Laag13613.6
Midden46646.6
Hoog39839.8
Leeftijd
< 2512212.2
25 – 3523223.2
35 – 4521921.9
45 – 5526826.8
> 5515915.9

Net als bij de Adviesnormgroep is bij de Selectienormgroep de eerste versie van de WPV Adaptief gesimuleerd (zie pagina 25 voor de specificaties van de vragenlijst). Nadat iedere persoon in de normgroep de WPV Adaptief had doorlopen zijn de theta-scores genormeerd met de continue fit-methode (zie Van der Woud, 2007). De kenmerken van de ruwe scores en de stenscores (die weergegeven in de rapportage van de WPV Adaptief) zijn weergegeven in Tabel 1.21.

Tabel 1.21. Kenmerken van de ruwe scores en stenscores Adaptieve WPVN, normgroep Selectie (N = 1000).
Ruwe scoresLatente (sten)scores
Min.Max.MSDSPMin.Max.MSDSP
Competitie-3.323.240.050.990.040.030.518.745.501.85-0.14-0.42*
Dominantie-2.513.640.371.040.020.05-0.0610.935.501.850.02-0.05
Status-2.993.600.360.97-0.100.150.7210.985.501.840.00-0.01
Zelfvertoon-2.683.340.270.99-0.050.00-0.1010.825.501.840.01-0.07
Contactbehoefte-4.092.970.411.000.010.290.4511.425.501.840.02-0.10
Sociaal Ontspannen-3.473.550.451.020.110.09-0.1110.145.501.84-0.01-0.17
Zelfonthulling-3.653.210.170.900.060.371.2011.285.501.810.05-0.16
Vertrouwen-2.792.860.170.91-0.020.050.0310.365.501.82-0.01-0.04
Hartelijkheid-2.783.430.471.040.15-0.040.249.4795.501.85-0.07-0.19
Zorgzaamheid-2.702.770.191.000.22*-0.240.9910.935.501.840.04-0.16
Energie-2.904.300.581.020.26*0.281.3711.015.501.830.030.08
Zelfontwikkeling-3.014.080.360.980.050.060.4110.445.501.82-0.02-0.10
Volharding-2.403.350.320.970.14-0.161.1711.445.501.82-0.03-0.04
Vernieuwing-2.854.010.461.020.010.180.8310.025.501.84-0.01-0.19
Originaliteit-2.602.960.290.980.00-0.240.1110.305.501.840.01-0.08
Onafhankelijkheid-3.272.95-0.371.010.28*-0.130.5911.485.501.840.00-0.02
Ordelijkheid-2.862.600.250.950.05-0.280.8710.615.501.820.02-0.17
Nauwkeurigheid-2.843.130.261.03-0.01-0.191.509.9795.501.850.03-0.19
Regelmaat-3.003.24-0.210.930.36*0.49*0.8910.795.501.83-0.040.08
Conformisme-3.073.340.351.020.180.000.2310.245.501.84-0.04-0.11
Weloverwogen-3.102.870.240.910.060.260.9210.105.501.810.02-0.19
Zelfvertrouwen-3.033.950.520.990.040.59*1.2310.375.501.850.02-0.11
Positivisme-2.603.650.530.990.020.080.6010.285.501.830.00-0.10
Frustratietolerantie-3.023.620.470.99-0.070.210.9611.035.501.850.00-0.16
Incasseringsvermogen-3.123.560.570.970.080.160.6810.455.501.84-0.01-0.17
Noot. * > 2.58, ** > 3, S = Scheefheid, P = Platheid

Met een asterisk (*) is aangegeven wanneer de Z-score (verkregen door de waardes door hun standaardfout te delen) van de scheefheid en kurtosis (platheid) de grens ± 2.58 overstijgt. Er zijn 4 schalen waarbij de ruwe scores een wat schevere verdeling dan verwacht laten zien, en 2 schalen waar de verdelingen een wat hogere piek laten zien dan verwacht. Echter, de vuistregel van ||Z||>2.58 wordt door sommigen als erg streng gekwalificeerd, en zij hanteren daarom liberalere regels waarbij absolute waarden van scheefheid > 3 en kurtosis > 8 (of zelf >10) gelden als een indicatie voor een afwijking van de normale verdeling (Kline, 2005). Gebaseerd op deze regels (zie Tabel 1.21.) kunnen we over het algemeen concluderen dat de ruwe scores van WPV Adaptief redelijk normaal verdeeld zijn in de normgroep. Bovendien zien we dat de stenscores niet afwijken van de normale verdeling wat betreft scheefheid en platheid (met uitzondering van Competitie, die een wat plattere verdeling dan een normale verdeling laat zien).

Net als bij de Adviesgroep is gekeken naar de samenhang tussen de theta-scores verkregen via de WPV Adaptief, de WPV-N gescoord via MIRT en gescoord volgens de klassieke testtheorie. De correlaties zijn weergegeven in Tabel 1.22. We zien, net als bij de Adviesgroep, dat de correlaties zeer hoog zijn. Als we de gemiddelde waarden onderin Tabel 1.11 vergelijken met Tabel 1.22, dan zien we nauwelijks verschillen; hieruit blijkt dat de WPV Adaptief zowel bij de Advies- als Selectiegroep sterke samenhang laat zien met de volledige WPV-N en dat hier geen vertekeningen optreden door de testsituatie.

Tabel 1.22. Correlaties schalen en factoren WPV-A V1, volledige WPVN gescoord met MIRT en volledige WPVN klassiek gescoord – Selectie.
Adap vs Full MIRTAdap vs Full CTTFull MIRT vs Full CTT
Invloed.98.96.99
Competitie.97.91.98
Dominantie.97.92.98
Status.96.89.98
Zelfvertoon.97.94.99
Sociabiliteit.98.96.99
Contactbehoefte.97.92.97
Sociaal ontspannen.97.92.97
Zelfonthulling.96.91.98
Vertrouwen.96.93.98
Hartelijkheid.97.92.97
Zorgzaamheid.95.92.99
Gedrevenheid.98.95.98
Energie.97.90.96
Zelfontwikkeling.98.88.93
Volharding.96.89.96
Vernieuwing.98.94.97
Originaliteit.96.94.99
Onafhankelijkheid.97.91.97
Structuur.98.96.98
Ordelijkheid.97.92.97
Nauwkeurigheid.96.91.97
Regelmaat.94.92.99
Conformisme.97.94.98
Weloverwogen.96.94.98
Stabiliteit.98.95.98
Zelfvertrouwen.96.90.97
Positivisme.96.91.96
Frustratietolerantie.96.89.97
Incasseringsvermogen.96.91.98
Gemiddelde schalen.96.92.97
Gemiddelde factoren.98.96.98

Ook zijn bij de Selectienormgroep de betrouwbaarheden berekend bij de adaptieve versie, de volledige versie gescoord via MIRT en de klassiek gescoorde WPV-N. Deze zijn weergegeven in Tabel 1.23.

Tabel 1.23. Betrouwbaarheden adaptieve WPV-N, volledige WPV-N gescoord met MIRT en volledige WPV-N klassiek gescoord – Selectie.
AdapFullCTT
Invloed.94.97.80 / .96
Competitie.86.97.89
Dominantie.86.97.89
Status.85.96.89
Zelfvertoon.85.97.88
Sociabiliteit.95.98.81 / .97
Contactbehoefte.85.97.86
Sociaal ontspannen.85.97.90
Zelfonthulling.82.96.89
Vertrouwen.82.96.87
Hartelijkheid.85.97.89
Zorgzaamheid.85.95.94
Gedrevenheid.95.97.75 / .95
Energie.84.97.86
Zelfontwikkeling.83.98.79
Volharding.83.96.86
Vernieuwing.85.98.85
Originaliteit.85.96.93
Onafhankelijkheid.84.97.85
Structuur.94.96.72 / .95
Ordelijkheid.83.97.86
Nauwkeurigheid.85.96.91
Regelmaat.83.94.90
Conformisme.85.97.90
Weloverwogen.82.96.88
Stabiliteit.94.97.81 / .96
Zelfvertrouwen.85.96.90
Positivisme.84.96.90
Frustratietolerantie.85.96.89
Incasseringsvermogen.84.96.89
M schalen.84.96.88
M factoren.94.97.78 / .96

De betrouwbaarheden van de schalen zijn iets lager dan bij de Adviesgroep, maar nog steeds hoog. Voor de factoren geldt dat de betrouwbaarheden zeer hoog zijn. Gemiddeld zijn er 95 items (SD = 10.2, Min. = 64, Max. = 148) nodig om tot deze betrouwbare schattingen te komen; dit zijn gemiddeld slechts 3 items meer dan bij Advies. Dit is een gemiddelde reductie van 66%. Qua afnametijd betekent dit dat de WPV Adaptief ook in selectiesituaties ongeveer 10 tot 25 minuten zal duren, vergeleken met 30 tot 40 minuten bij de WPV-N.

[1] Het bepalen van significantieniveaus van de NCDIF-waarden vergt bovendien uitgebreide simulatiestudies, wat met onze hoeveelheden items zeer tijdrovend is. Ook is nog weinig bekend over de drempelwaarden voor het bepalen van significantieniveaus van NCDIF-waarden bij multidimensionale IRT.

[2] Onderzoek naar DIF en DTF bij de WPV Adaptief wordt gedaan wanneer er voldoende data beschikbaar is.