Denna rapport tillhandahåller de psykometriska egenskaperna och valideringsrapporten för FranklinCoveys Leader Diagnostic. Diagnostiken bedömer en omfattande uppsättning färdigheter förknippade med ledarskap. Varje färdighet bedöms med objekt som fångar observerbara beteenden. Vid tidpunkten för denna rapport (oktober 2023) används Diagnostic som en 360-graders bedömning före och efter deltagande i FranklinCovey-kurser. En 180-graders version håller på att utvecklas.
Ladda ner hela Leader (360) Diagnostic Technical Report
Det finns en process för validering av bedömningar, ibland kallad psykometri.
Valideringsprocessen kan standardiseras beroende på bransch. Ofta är det dock mer exakt att säga att det finns flera valideringskriterier, vissa är viktigare än andra, men i allmänhet ju fler valideringskriterier en bedömning uppfyller, desto bättre.
Många organisationer som säljer bedömningar gör någon form av validering. Organisationer som främst fokuserar på bedömningar kan validera varje bedömning de producerar. Andra organisationer som har bedömningar som ett segment av sin verksamhet, som KornFerry och Gallup, publicerar också omfattande validerings-/tekniska rapporter för sina mest populära bedömningar, uppdaterar regelbundet dessa rapporter med nya data eller för att dokumentera ändringar i bedömningen.
Förståeligt nog har många av våra kunder bett om att få se vilket valideringsarbete vi har gjort på våra FranklinCovey-bedömningar.
Detta är en ~ 15 sidors rapport där vi fokuserade på två områden inom psykometri:
- Diagnosens tillförlitlighet - till exempel hur lika gör människor när de gör bedömningen en vecka senare.
- Diagnosens giltighet - till exempel hur väl förutsäger poäng arbetsplatsengagemang och arbetstillfredsställelse. Detta är vanligtvis den mest effektfulla delen av valideringsprocessen. En bedömning kan vara tillförlitlig men om den inte förutsäger mycket är det inte värt mycket. En Buzzfeed-frågesport som berättar vilken Disney-karaktär du är kan teoretiskt träffa de andra kriterierna, men kommer förmodligen aldrig att vara bra på att förutsäga något annat än preferenser för Disney-karaktärer.
Totalt analyserade vi cirka 20 000 svar från FY '23-versionen av Diagnostic, och fick sedan över tusen ledare betygsätta sig själva, och mer än 500 direkta rapporter betygsatte sina ledare på FY '24-versionen av Diagnostic.
Diagnosen uppfyller de allmänt accepterade standarderna för flera valideringskriterier - normalt distribuerade svar, flera former av tillförlitlighet, och flera former av giltighet - och fungerar i vissa fall riktigt bra på dessa kriterier.
Huvudfyndet är att relationerna mellan att betygsätta din ledare högre på Diagnosen och en mängd fantastiska resultat, som engagemang, arbetstillfredsställelse, avsikt att stanna i din organisation, är riktigt starka. Relationer som konkurrerar med några av de bästa akademiska bedömningarna av ledarskap.
Ja. Rapporten omfattar följande valideringskriterier:
- Intern konsistens
- Tillförlitlighet mellan bedömare
- Mellan olika bedömningstyper (t.ex. själv-, chef- och direktrapportbedömare)
- Inom betygstyper (t.ex. visar direktrapporter som betygsätter samma chef på 360 någon konsistens mellan varandra när det gäller hur de betygsätter den chefen)
- Test-retest-tillförlitlighet
- Faktorstruktur (dvs. är diagnosen ett flerdimensionellt mått)
- Konvergent validitet (dvs. relaterar diagnosen till andra validerade mått på ledarskap)
- Baserat på självbedömningsdata
- Och baserat på direkta rapportbedömningsdata
- Kriterium/samtidig giltighet (dvs. relaterar diagnosen till resultat som vi tänker förutsäga: som engagemang, arbetstillfredsställelse och uppfattningar om chefens effektivitet)
- Skillnader i diagnostiska poäng baserat på respondentens demografi (etc., ålder, könsidentitet) och team- och organisationsvariabler (t.ex. organisationsstorlek, distansarbetsstatus)
FY' 24-versionen av Diagnosen är kortare, och vi uppdaterade frågorna som inte hade normalt distribuerade svar eller hade för hög korrelation med andra frågor (vilket tyder på att de är överflödiga). Dessa stegvisa förbättringar resulterar i en mer tillförlitlig och giltig diagnostik.
Det finns i princip två typer av tester som vi litade på för att bestämma de nya frågorna.
Vi börjar först med många möjliga frågor som kan användas som ersättare eller tillägg. Vi gör sedan många små tester med respondenterna för att hitta de frågor som är bättre på några kriterier. Det vi letar efter är frågor som har ett bra intervall i svar, helst en normal fördelning av poäng. Och vi letar efter frågor som har starka korrelationer med begrepp som vi vill att frågorna ska korreleras med - till exempel andra mått på ledareffektivitet. Denna process tog oss nästan hela vägen dit till vår sista uppsättning frågor.
Det andra steget i processen är ännu mer involverat. Och det är valideringsinsatsen som beskrivs i den tekniska rapporten.
Med FY' 24-versionen av Diagnostic ändrade vi etiket terna på vår svarsskala från expertis (1-nybörjare, 4-skicklig, 7-expert) till frekvens (1-aldrig, 7- alltid). Observera att skalan fortfarande är en 1-7-punktsskala.
Det finns flera orsaker till denna förändring:
- En frekvensskala är mer i linje med vad som är standard och förväntas i bedömningar avsedda att mäta beteenden och beteendeförändring.
- Flera respondenter och kunder har kommenterat att kompetensskalan är svår att förstå och definiera (även med definitionerna av nybörjare, skicklig och expert vi tillhandahåller). En frekvensskala kommer att tolkas mer konsekvent mellan bedömare. Och kommer lättare att förstås av respondenter och kunder.
- Vi har genomfört några tester och experiment där vi varierar svarskalaetiketterna som respondenterna ser (expertis kontra frekvens) och fann att skaletiketter påverkar valet av saknade data och valet av ”Det går inte att utvärdera.” Specifikt, bedömare är mycket mer benägna att hoppa över ett betyg eller välja ”Det går inte att utvärdera” när de betygsätter på expertskalan jämfört med frekvensskalan. Därför förväntar vi oss att den nya frekvensskalan kommer att leda till mer fullständiga data från bedömare av 360.
Det finns ytterligare steg för att validera en 360. Två av dem tittar på konsistensen/tillförlitligheten mellan olika typer av bedömare. Detta är i huvudsak ett mått på om självbetyg matchar chefsbetyg och peer-ratings etc. Workplace 360 visar inte mycket överlappning mellan olika typer av bedömare. Men vi hittar överlappning mellan typer av bedömare som är i linje med vad som förväntas inom branschen. Det bästa sättet att tolka detta fynd är att vår 360 erbjuder många möjligheter för elever att se hur andra bedömare betygsätter dem annorlunda.
Ett annat steg mot att validera en 360-bedömning är att undersöka konsistensen/tillförlitligheten inom en typ av bedömare (t.ex. är direkta rapporter som betygsätter samma chef tillräckligt konsekventa i sina betyg?). Vi undersökte befintliga FC 360-data från både direktrapport- och chefsbedömare. Här fann vi den konsistensen inom betygstyper som liknar några av de mest populära ledarskapsbedömningarna.
Detaljerna om båda dessa former av tillförlitlighet finns i den tekniska rapporten under avsnittet, Inter-rater tillförlitligheter.
Medan den tekniska rapporten fokuserar på Leader Diagnostic, är vissa av tillförlitlighets- och giltighetskriterierna relevanta för versionen Individual Contributor. I synnerhet föreslår de interna konsistensen och test-retest-mätvärdena för kategorierna individuell effektivitet och vinnande kultur (visas i tabellerna 2 och 4 i den tekniska rapporten) att dessa avsnitt, som utgör IC-versionen, är tillförlitliga. Dessutom visade dessa två kategorier statistiskt signifikanta samband med alla konvergerande och kriterievariabler som beskrivs i denna rapport. Även om denna statistik inte finns i den tekniska rapporten, de finns tillgängliga på begäran.
Våra valideringstester gjordes endast i USA, och på engelska. Det är nästan alltid så att validering börjar inom ett land och språk, och om tvärkulturell validering krävs görs det senare genom ytterligare studier.
Vi noterar också att det finns en viktig skillnad mellan huruvida en bedömning är giltig över kulturer, och om det helt enkelt finns skillnader mellan kulturer. Så till exempel hittar vi vissa demografiska skillnader i våra USA-baserade data - vissa baserade på ras/etnicitet, vissa baserade på status för fjärrarbete. Så det här är skillnader mellan grupper. Men oavsett grupp förutsäger diagnostiska poäng fortfarande resultat som engagemang och arbetstillfredsställelse. Det är det som talar om bedömningens giltighet.
Allt som sagt, om vi ska göra tvärkulturell studie av Diagnosen, skulle det komma i framtiden och kan läggas till i en reviderad version av den tekniska rapporten.
Vårt valideringsarbete leddes av Alex O'Connor i produktteamet. Han har en doktorsexamen i forskningspsykologi, är utbildad i psykometri och har tidigare publicerat validerade bedömningar i akademiska tidskrifter.
Vårt valideringsarbete stöddes av en extern expert, Joshua Eng, PhD. Han är fakultet vid Indiana University - School of Medical. Han ansvarar för att validera bedömningarna som mäter inlärnings- och välbefinnanderesultat för kirurgiska invånare över hela landet och har decennier av erfarenhet som psykometriker.
Kommentarer
0 kommentarer
Artikeln är stängd för kommentarer.