Dit rapport bevat het psychometrische eigenschappen- en validatierapport voor FranklinCovey's Leader Diagnostic. The Diagnostic beoordeelt een uitgebreide reeks vaardigheden die verband houden met leiderschap. Elke vaardigheid wordt beoordeeld aan de hand van items die waarneembaar gedrag vastleggen. Op het moment van dit rapport (oktober 2023) wordt de diagnose gebruikt als een beoordeling met 360 beoordelaars voor en na deelname aan FranklinCovey-cursussen. Er wordt een versie met een score van 180 graden ontwikkeld.
Download het volledige diagnostische technische rapport van Leader (360)
Er bestaat een proces voor het valideren van beoordelingen, ook wel psychometrie genoemd.
Het validatieproces kan gestandaardiseerd worden, afhankelijk van de sector. Vaak is het echter juister om te zeggen dat er verschillende validatiecriteria zijn, waarvan sommige belangrijker zijn dan andere, maar over het algemeen geldt dat hoe meer validatiecriteria een beoordeling vervult, hoe beter.
Veel organisaties die beoordelingen verkopen, doen een of andere vorm van validatie. Organisaties die zich voornamelijk op beoordelingen richten, kunnen elke beoordeling die ze maken valideren. Andere organisaties die beoordelingen als onderdeel van hun bedrijf hebben, zoals KornFerry en Gallup, publiceren ook uitgebreide validatie-/technische rapporten voor hun meest populaire beoordelingen, waarbij ze die rapporten regelmatig bijwerken met nieuwe gegevens of om wijzigingen in de beoordeling te documenteren.
Het is begrijpelijk dat veel van onze klanten hebben gevraagd welk validatiewerk we hebben gedaan met betrekking tot onze FranklinCovey-beoordelingen.
Dit is een rapport van ongeveer 15 pagina's waarin we ons hebben gericht op twee gebieden van de psychometrie:
- De betrouwbaarheid van de diagnose — bijvoorbeeld, hoe vergelijkbaar scoren mensen als ze een week later de beoordeling doen.
- De validiteit van de diagnose — bijvoorbeeld hoe goed voorspellen de scores de betrokkenheid op de werkplek en het werkplezier? Dit is doorgaans het meest impactvolle deel van het validatieproces. Een beoordeling kan betrouwbaar zijn, maar als er niet veel wordt voorspeld, is ze niet veel waard. Een Buzzfeed-quiz die u vertelt welk Disneypersonage u bent, zou in theorie aan de andere criteria kunnen voldoen, maar zal waarschijnlijk nooit goed zijn in het voorspellen van iets anders dan voorkeuren voor Disneyfiguren.
In totaal hebben we ongeveer 20.000 reacties van de Diagnostische versie van FY '23 geanalyseerd, en vervolgens hebben meer dan duizend leiders zichzelf beoordeeld en meer dan 500 ondergeschikten hun leiders beoordeeld op basis van de FY '24-versie van de Diagnostic.
De diagnose voldoet aan de algemeen aanvaarde normen voor verschillende validatiecriteria — normaal verdeelde reacties, meerdere vormen van betrouwbaarheid en meerdere vormen van validiteit — en presteert in sommige gevallen heel goed op deze criteria.
De belangrijkste bevinding is dat het verband tussen een hogere beoordeling van uw leider op de Diagnostische test en een groot aantal geweldige resultaten, zoals betrokkenheid, werkplezier en de intentie om bij uw organisatie te blijven, zeer sterk is. Relaties die wedijveren met enkele van de beste academische beoordelingen op het gebied van leiderschap.
Ja. Het rapport behandelt de volgende validatiecriteria:
- Interne consistentie
- Betrouwbaarheid tussen beoordelaars
- Tussen verschillende soorten beoordelaars (bijv. beoordelaars zelf, managers en directe beoordelaars)
- Binnen de beoordelingstypes (bijvoorbeeld, tonen directe ondergeschikten die dezelfde manager beoordelen op de 360 graden of er sprake is van enige consistentie tussen elkaar wat betreft de manier waarop ze die manager beoordelen)
- Betrouwbaarheid opnieuw testen
- Factorstructuur (d.w.z. is de diagnose een multidimensionale maatstaf)
- Convergente validiteit (d.w.z. heeft de diagnose betrekking op andere gevalideerde maatstaven voor leiderschap)
- Gebaseerd op gegevens van zelfbeoordelaars
- En gebaseerd op gegevens van directe beoordelaars
- Criterium/gelijktijdige validiteit (d.w.z. heeft de diagnose betrekking op resultaten die we willen voorspellen: zoals betrokkenheid, werkplezier en percepties van de effectiviteit van managers)
- Verschillen in diagnostische scores op basis van demografische gegevens van de respondenten (enz., leeftijd, geslachtsidentiteit) en team- en organisatievariabelen (bijv. grootte van de organisatie, status van werken op afstand)
De FY' 24-versie van de Diagnostiek is korter, en we hebben de vragen bijgewerkt die geen normaal verdeelde antwoorden hadden of een te hoge correlatie hadden met andere vragen (wat suggereert dat ze overbodig zijn). Deze incrementele verbeteringen resulteren in een betrouwbaardere en validere diagnose.
Er zijn in principe twee soorten tests waarop we hebben vertrouwd om de nieuwe vragen te bepalen.
We beginnen eerst met veel mogelijke vragen die kunnen worden gebruikt als vervanging of aanvulling. Vervolgens doen we veel kleine tests met respondenten om de vragen te vinden die beter zijn op basis van een aantal criteria. Wat we zoeken zijn vragen met een groot aantal antwoorden, bij voorkeur een normale verdeling van de scores. En we zijn op zoek naar vragen die sterk verband houden met concepten waarmee we willen dat de vragen worden gecorreleerd, bijvoorbeeld andere maatstaven voor de effectiviteit van leiders. Dit proces bracht ons bijna helemaal tot onze laatste reeks vragen.
De tweede stap in het proces is zelfs nog ingewikkelder. En dat is de validatie-inspanning die gedetailleerd wordt beschreven in het technisch rapport.
Met de FY' 24-versie van de Diagnostic hebben we de labels op onze responsschaal veranderd van expertise (1-Novice, 4-Proficient, 7-Expert) naar frequentie (1-Never, 7-Always). Opmerking, de schaal is nog steeds een schaal van 1 tot 7.
Er zijn verschillende redenen voor deze wijziging:
- Een frequentieschaal komt meer overeen met wat standaard is en wordt verwacht bij beoordelingen die bedoeld zijn om gedrag en gedragsverandering te meten.
- Verschillende respondenten en klanten hebben opgemerkt dat de expertiseschaal moeilijk te begrijpen en te definiëren is (zelfs met de definities van beginner, bekwaam en deskundig die we geven). Een frequentieschaal zal voor alle beoordelaars consistenter worden geïnterpreteerd. En zal gemakkelijker worden begrepen door respondenten en klanten.
- We hebben enkele tests en experimenten uitgevoerd waarbij we de labels op de responsschaal die respondenten zien variëren (expertise versus frequentie) en hebben vastgesteld dat schaallabels invloed hebben op de selectie van de ontbrekende gegevens en de selectie van „Kan niet evalueren”. In het bijzonder is het veel waarschijnlijker dat beoordelaars een beoordeling overslaan of „Niet in staat om te evalueren” selecteren wanneer ze beoordelen op de expertiseschaal in vergelijking met de frequentieschaal. Daarom verwachten we dat de nieuwe frequentieschaal zal leiden tot completere gegevens van beoordelaars van de 360.
Er zijn extra stappen nodig om een 360 te valideren. Twee daarvan kijken naar de consistentie/betrouwbaarheid van verschillende soorten beoordelaars. Dit is in wezen een maatstaf om te bepalen of zelfbeoordelingen overeenkomen met de beoordelingen van managers en ratings van collega's, enz. De 360's op de werkplek vertonen niet veel overlap tussen verschillende soorten beoordelaars. Maar we vinden wel dat er een overlap is tussen soorten beoordelaars die in lijn is met wat er binnen de sector wordt verwacht. De beste manier om deze bevinding te interpreteren is dat onze 360 leerlingen voldoende mogelijkheden biedt om te zien hoe andere beoordelaars hen anders beoordelen.
Een andere stap in de richting van de validatie van een 360°-beoordeling is het onderzoeken van de consistentie/betrouwbaarheid binnen een soort beoordelaar (bijvoorbeeld: beoordelen directe ondergeschikten dezelfde manager voldoende consistent in hun ratings?). We hebben de bestaande FC 360-gegevens van zowel directe beoordelaars als managers onderzocht. Hier hebben we die consistentie gevonden binnen beoordelingstypes die vergelijkbaar zijn met enkele van de meest populaire leiderschapsbeoordelingen.
De details van beide vormen van betrouwbaarheid staan in het technisch rapport onder de sectie Betrouwbaarheid tussen beoordelaars.
Hoewel het technische rapport zich richt op de Leader Diagnostic, zijn sommige betrouwbaarheids- en validiteitscriteria relevant voor de Individual Contributor-versie. Met name de interne consistentiestatistieken en de statistieken voor de categorieën Individuele effectiviteit en Winnende Cultuur (weergegeven in de tabellen 2 en 4 van het technisch rapport) suggereren dat deze secties, die deel uitmaken van de IC-versie, betrouwbaar zijn. Bovendien vertoonden deze twee categorieën statistisch significante relaties met alle convergente variabelen en de criteriumvariabelen die in dit verslag worden beschreven. Hoewel deze statistieken niet in het technisch rapport staan, zijn ze op aanvraag beschikbaar.
Onze validatietests zijn alleen in de VS en in het Engels uitgevoerd. Het is bijna altijd zo dat validatie begint in één land en taal, en als er vervolgens interculturele validatie vereist is, gebeurt dit later door middel van aanvullende onderzoeken.
We merken ook op dat er een belangrijk onderscheid is tussen de vraag of een beoordeling geldig is tussen culturen en of er gewoon verschillen zijn tussen culturen. We vinden bijvoorbeeld enkele demografische verschillen in onze gegevens in de VS — sommige op basis van ras/etniciteit, andere op basis van de status van werken op afstand. Dit zijn dus verschillen tussen groepen. Maar ongeacht de groep voorspellen diagnostische scores nog steeds resultaten zoals betrokkenheid en werkplezier. Dat is wat zegt over de validiteit van de beoordeling.
Dat gezegd hebbende, als we intercultureel onderzoek willen doen naar de diagnose, zou dat in de toekomst komen en zou kunnen worden toegevoegd aan een herziene versie van het technisch rapport.
Ons validatiewerk werd geleid door Alex O'Connor van het productteam. Hij heeft een doctoraat in onderzoekspsychologie, is opgeleid in psychometrie en heeft eerder gevalideerde beoordelingen gepubliceerd in wetenschappelijke tijdschriften.
Ons validatiewerk werd ondersteund door een externe expert, Joshua Eng, PhD. Hij is een faculteit aan de Indiana University — School of Medical. Hij is verantwoordelijk voor de validatie van de beoordelingen die de leer- en welzijnsresultaten van chirurgen in het hele land meten en heeft tientallen jaren ervaring als psychometricus.
Opmerkingen
0 opmerkingen
Artikel is gesloten voor opmerkingen.