Welke psychometrische instrumenten zijn betrouwbaar?

03/08/2023

Wat bepaalt de kwaliteit van een test of vragenlijst?

Hoe beslist u welke psychometrische instrumenten het overwegen waard zijn, als er letterlijk duizenden beschikbaar zijn op de markt? Niet alle psychometrische testen en vragenlijsten zijn immers gelijkwaardig. Veel van de instrumenten werden nooit op een methodische, wetenschappelijke manier geëvalueerd, maar lijken voornamelijk te worden ondersteund door mythes en persoonlijke anekdotes. Waar moet u, naast de kosten en look and feel, nog meer op letten om zeker te zijn of een psychometrische test werkt zoals het hoort?

Betrouwbaarheid

Eén van de manieren om te bepalen of de kwaliteit van een test het nodige niveau haalt, is door te kijken naar de betrouwbaarheid van de resultaten. Stel u volgende situatie voor: één van uw medewerkers legt een test af maar loopt op mysterieuze wijze kortetermijngeheugenverlies op, waardoor de test opnieuw dient afgelegd te worden. De behaalde scores voor beide testafnames zouden nauwelijks mogen afwijken van elkaar: hoogwaardige testen leveren immers vergelijkbare scores op, ongeacht wanneer ze werden afgenomen of door wie. Alleen wanneer dit het geval is, kunt u er op vertrouwen dat de scores die u krijgt daadwerkelijk accuraat zijn.

Ongestructureerde interviews zijn bijvoorbeeld allesbehalve betrouwbaar. Interviewers hebben, zelfs met de beste bedoelingen, onbewust vooroordelen over kandidaten en vertonen de neiging om hun vragen en gedrag aan te passen aan de persoon die voor hen zit. Soortgelijke onbetrouwbaarheid beperkt zich niet enkel tot interviews, maar duikt ook op bij andere populaire soorten testen of vragenlijsten, zoals die waarbij 'persoonlijkheidstypen' worden gemeten. Typetesten zijn prima voor workshops en teambuildings, maar ze zijn niet geschikt om HR-gerelateerde beslissingen met hoge inzet op te baseren, zoals aanwervingen. Uit onderzoek is immers gebleken dat de meerderheid van de testpersonen een ander persoonlijkheidstype krijgt toegewezen wanneer ze binnen een tijdspanne van slechts vijf weken opnieuw zouden worden getest.

Ons advies: bekijk zorgvuldig het betrouwbaarheidsgedeelte van de handleiding van een test of vragenlijst voordat u een kandidaat eraan onderwerpt. Wanneer is aangetoond dat de betrouwbaarheidsstatistieken van een test gunstig zijn, kunt u erop vertrouwen dat u ‘iets’ met een bepaalde nauwkeurigheid aan het meten bent. Ja, ‘iets’, omdat u natuurlijk nog niet weet wat u precies aan het meten bent.

Validiteit

U ontvangt een rapport nadat u een test invulde en de dingen die u daarin leest, die komen overeen met wat u van zichzelf vindt. Dat betekent toch dat u niet hoeft te twijfelen aan de echtheid van deze resultaten? Toch wel. Om een positieve deelnemerservaring te creëren, is het belangrijk dat kandidaten het gevoel hebben dat de uitkomst van een test correct is, maar dit betekent niet automatisch dat de test wetenschappelijk geldig is. Verrassend genoeg hebben mensen de neiging om uitspraken zonder onderscheid te beoordelen wanneer ze op hen persoonlijk slaan, zelfs als die uitspraken op iedereen van toepassing zouden kunnen zijn. Dit wordt het 'Forer-effect' genoemd en gebeurt onder invloed van de humane neiging om een betekenis te zoeken waar er geen bestaat, vooral wanneer er (positieve) informatie aan de eigen persoon kan worden gerelateerd. Het 'Forer-effect' kan bijvoorbeeld deels verklaren waarom zoveel mensen pseudowetenschappen zoals astrologie, waarzeggerij en grafologie met een bepaalde seriéux behandelen. Maar het biedt vanzelfsprekend geen valabele basis om HR-beslissingen met met hoge inzet op te baseren.

Er bestaan verschillende types van technische controles die kunnen worden toegepast om de validiteit wetenschappelijk aan te tonen en zeker zijn dat de test meet wat hij beweert te meten. De schalen moeten bijvoorbeeld logisch correleren met andere instrumenten die vergelijkbare of verschillende concepten meten. Een ander aspect dat onderzocht moet worden is de mate waarin de gemiddelde testscores voor relevante groepen van elkaar verschillen. Het is bijvoorbeeld logisch dat mensen in administratieve functies lager scoren op een 'nood om impact te hebben'-schaal dan bijvoorbeeld senior managers. Eveneens zouden mensen met een hogere opleiding gemiddeld ook hoger moeten scoren op cognitieve testen.

Een belangrijke claim van de meeste aanbieders is dat hun test de klant zal helpen om 'betere' werknemers te selecteren, wat zou resulteren in betere prestaties. Om dit waar te maken, moeten de testscores correleren met beoordelingen van de functieprestaties. Deze correlaties worden beschouwd als bewijs van de 'criteriumvaliditeit'.

De juiste test voor de juiste kandidaat

Waarom tijd besteden aan psychometrische rompslomp of aan het lezen van deze blog, als uw belangrijkste doel is om iemand te vinden om een vacature in te vullen. De juiste kandidaat op de juiste plaats kan u echter helpen om uw langetermijndoelstellingen te ondersteunen, zoals een retentiebeleid, het reduceren van opleidingskosten en het verhogen van de productiviteit.

U hoeft zich daarom zelf niet door eindeloze pagina's met vaak zeer technische testdocumentatie te worstelen. Er bestaan onafhankelijke, gespecialiseerde instanties waar opgeleide psychometristen ingezet worden om al deze informatie objectief te beoordelen. De British Psychological Society (BPS) is bijvoorbeeld een internationaal erkende en onafhankelijke organisatie die diepgaande audits van psychometrische instrumenten uitvoert. Een BPS-gecertificeerde test, zoals Hudsons BAQ, garandeert dat de validiteit en betrouwbaarheid, het testadministratieproces, de gebruikte materialen en alle bijbehorende computergegenereerde rapporten voldoen aan de hoogste Europese normen voor testkwaliteit.

Conclusie: niet alle tests op de markt doen wat ze beweren te doen, maar u kan er wel vrij zeker van zijn dat een test of vragenlijst van de nodige kwaliteit is als de beweringen ervan worden ondersteund door psychometrisch bewijs.