Dieser Bericht enthält die psychometrischen Eigenschaften und den Validierungsbericht für FranklinCovey's Leader Diagnostic. Die Diagnose bewertet eine umfassende Reihe von Fähigkeiten im Zusammenhang mit Führung. Jede Fähigkeit wird anhand von Gegenständen bewertet, die beobachtbares Verhalten festhalten. Zum Zeitpunkt der Erstellung dieses Berichts (Oktober 2023) wird die Diagnose als 360-Grad-Bewertung vor und nach der Teilnahme an Franklin-Covey-Kursen eingesetzt. Eine 180-Rater-Version wird entwickelt.
Laden Sie den vollständigen technischen Bericht von Leader (360) Diagnostic herunter
Es gibt ein Verfahren zur Validierung von Einschätzungen, das manchmal als Psychometrie bezeichnet wird.
Der Validierungsprozess kann je nach Branche standardisiert werden. Oft ist es jedoch genauer zu sagen, dass es mehrere Validierungskriterien gibt, einige sind wichtiger als andere, aber im Allgemeinen ist es umso besser, je mehr Validierungskriterien eine Bewertung erfüllt.
Viele Organisationen, die Bewertungen verkaufen, führen irgendeine Art von Validierung durch. Organisationen, die sich hauptsächlich auf Bewertungen konzentrieren, können jede Bewertung, die sie erstellen, validieren. Andere Organisationen, die Assessments zu ihrem Geschäftsbereich machen, wie KornFerry und Gallup, veröffentlichen ebenfalls umfangreiche Validierungs-/technische Berichte für ihre beliebtesten Bewertungen und aktualisieren diese Berichte regelmäßig mit neuen Daten oder um Änderungen an der Bewertung zu dokumentieren.
Verständlicherweise haben viele unserer Kunden gefragt, welche Validierungsarbeit wir für unsere FranklinCovey-Bewertungen geleistet haben.
Dies ist ein ~15-seitiger Bericht, in dem wir uns auf 2 Bereiche der Psychometrie konzentriert haben:
- Die Zuverlässigkeit der Diagnose — zum Beispiel, wie ähnlich schneiden die Leute ab, wenn sie die Bewertung eine Woche später ablegen.
- Die Gültigkeit der Diagnose — zum Beispiel, wie gut die Ergebnisse das Engagement am Arbeitsplatz und die Arbeitszufriedenheit vorhersagen. Dies ist in der Regel der wirkungsvollste Teil des Validierungsprozesses. Eine Bewertung kann zuverlässig sein, aber wenn sie nicht viel vorhersagt, ist sie nicht viel wert. Ein Buzzfeed-Quiz, das Ihnen sagt, welche Disney-Figur Sie sind, könnte theoretisch die anderen Kriterien erfüllen, wird aber wahrscheinlich nie gut darin sein, etwas anderes als Vorlieben für Disney-Figuren vorherzusagen.
Insgesamt analysierten wir etwa 20.000 Antworten aus der Version der Diagnose für das Geschäftsjahr 23 und ließen dann über tausend Führungskräfte sich selbst bewerten, und mehr als 500 direkt unterstellte Mitarbeiter bewerteten ihre Führungskräfte in der Version der Diagnose für das Geschäftsjahr 24.
Die Diagnose erfüllt die allgemein anerkannten Standards in Bezug auf mehrere Validierungskriterien — normalverteilte Antworten, mehrere Zuverlässigkeitsformen und mehrere Validitätsformen — und schneidet in einigen Fällen bei diesen Kriterien sehr gut ab.
Das wichtigste Ergebnis ist, dass die Beziehung zwischen einer höheren Bewertung Ihrer Führungskraft in der Diagnose und einer Vielzahl großartiger Ergebnisse, wie Engagement, Arbeitszufriedenheit, Absicht, in Ihrem Unternehmen zu bleiben, wirklich stark ist. Beziehungen, die mit einigen der wichtigsten akademischen Einschätzungen zum Thema Führung mithalten können.
Ja. Der Bericht deckt die folgenden Validierungskriterien ab:
- Interne Kohärenz
- Interrater-Zuverlässigkeit
- Zwischen verschiedenen Bewertertypen (z. B. Selbst-, Manager- und direkt unterstellte Bewerter)
- Innerhalb der Bewertertypen (z. B. zeigen direkt unterstellte Mitarbeiter, die denselben Manager auf der 360 bewerten, eine gewisse Konsistenz in Bezug auf die Art und Weise, wie sie diesen Manager bewerten)
- Zuverlässigkeit testen und erneut testen
- Faktorenstruktur (d. h. ist die Diagnose ein mehrdimensionales Maß)
- Konvergente Validität (d. h. bezieht sich die Diagnose auf andere validierte Führungsmaßstäbe)
- Basierend auf Daten von Selbstbewertern
- Und basierend auf Daten von direkt unterstellten Bewertern
- Kriterium/gleichzeitige Gültigkeit (d. h. bezieht sich die Diagnose auf Ergebnisse, die wir damit vorhersagen wollen: wie Engagement, Arbeitszufriedenheit und die Wahrnehmung der Effektivität von Managern)
- Unterschiede in den Diagnosewerten auf der Grundlage der demografischen Daten der Befragten (usw., Alter, Geschlechtsidentität) und Team- und Organisationsvariablen (z. B. Unternehmensgröße, Status der Telearbeit)
Die Version der Diagnose für das Geschäftsjahr 24 ist kürzer, und wir haben die Fragen aktualisiert, die keine normalverteilten Antworten hatten oder eine zu hohe Korrelation mit anderen Fragen aufwiesen (was darauf hindeutet, dass sie überflüssig sind). Diese schrittweisen Verbesserungen führen zu einer zuverlässigeren und valideren Diagnose.
Es gibt im Grunde zwei Arten von Tests, auf die wir uns verlassen haben, um die neuen Fragen zu ermitteln.
Wir beginnen zunächst mit vielen möglichen Fragen, die als Ersatz oder Ergänzung verwendet werden könnten. Wir führen dann viele kleine Tests mit den Befragten durch, um die Fragen zu finden, die bei einigen Kriterien besser sind. Was wir suchen, sind Fragen mit einer guten Bandbreite an Antworten, vorzugsweise einer normalen Punkteverteilung. Und wir suchen nach Fragen, die starke Korrelationen mit Konzepten haben, mit denen die Fragen korreliert werden sollen — zum Beispiel anderen Messgrößen für die Effektivität von Führungskräften. Dieser Prozess hat uns fast bis zu unserem letzten Fragenkatalog geführt.
Der zweite Schritt des Prozesses ist noch aufwändiger. Und das ist der Validierungsaufwand, der im technischen Bericht detailliert beschrieben wird.
Mit der FY'24-Version der Diagnose haben wir die Bezeichnungen auf unserer Antwortskala von Fachwissen (1-Anfänger, 4-Fortgeschritten, 7-Experte) auf Häufigkeit (1-Nie, 7-Immer) geändert. Beachten Sie, die Skala ist immer noch eine Skala von 1—7 Punkten.
Es gibt mehrere Gründe für diese Änderung:
- Eine Häufigkeitsskala entspricht eher dem, was bei Bewertungen zur Messung von Verhalten und Verhaltensänderungen üblich und erwartet wird.
- Mehrere Befragte und Kunden haben angemerkt, dass die Kompetenzskala schwer zu verstehen und zu definieren ist (selbst mit den Definitionen von Anfänger, kompetent und Experte, die wir anbieten). Eine Frequenzskala wird bei allen Bewertern einheitlicher interpretiert. Und wird von Befragten und Kunden leichter verstanden werden.
- Wir haben einige Tests und Experimente durchgeführt, bei denen wir die Bezeichnungen der Antwortskala, die die Befragten sehen, variieren (Fachwissen versus Häufigkeit) und festgestellt, dass die Skalenbezeichnungen die Auswahl der fehlenden Daten und die Auswahl von „Nicht evaluierbar“ beeinflussen. Insbesondere ist es viel wahrscheinlicher, dass Bewerter eine Bewertung überspringen oder „Bewertung nicht möglich“ wählen, wenn sie auf der Expertenskala bewerten, als auf der Frequenzskala. Daher erwarten wir, dass die neue Frequenzskala zu vollständigeren Daten von Bewertern der 360 führen wird.
Es gibt zusätzliche Schritte zur Validierung einer 360. Zwei davon untersuchen die Konsistenz/Zuverlässigkeit verschiedener Bewertertypen. Dies ist im Wesentlichen ein Maß dafür, ob Selbstbewertungen mit den Bewertungen von Managern und Peer-Bewertungen usw. übereinstimmen. Workplace 360s weisen kaum Überschneidungen zwischen den verschiedenen Bewertertypen auf. Aber wir finden Überschneidungen zwischen den Arten von Bewertern, was den Erwartungen der Branche entspricht. Die beste Art, dieses Ergebnis zu interpretieren, ist, dass unsere 360 viele Möglichkeiten für Lernende bietet, zu sehen, wie andere Bewerter sie unterschiedlich bewerten.
Ein weiterer Schritt zur Validierung einer 360-Grad-Bewertung besteht darin, die Konsistenz/Zuverlässigkeit innerhalb eines Bewertertyps zu untersuchen (z. B. sind direkt unterstellte Mitarbeiter, die denselben Manager bewerten, in ihren Bewertungen ausreichend konsistent?). Wir haben die vorhandenen FC 360-Daten sowohl von direkt unterstellten Mitarbeitern als auch von Managern untersucht. Hier haben wir die Konsistenz innerhalb der Bewertertypen festgestellt, die einigen der beliebtesten Bewertungen von Führungskräften ähneln.
Die Einzelheiten dieser beiden Zuverlässigkeitsformen finden Sie im technischen Bericht unter dem Abschnitt, Interrater-Zuverlässigkeiten.
Während sich der technische Bericht auf Leader Diagnostic konzentriert, sind einige der Zuverlässigkeits- und Gültigkeitskriterien für die Individual Contributor-Version relevant. Insbesondere die interne Konsistenz und die Testwiederholungskennzahlen für die Kategorien „Individuelle Effektivität“ und „Erfolgskultur“ (dargestellt in den Tabellen 2 und 4 des technischen Berichts) legen nahe, dass diese Abschnitte, aus denen sich die IC-Version zusammensetzt, zuverlässig sind. Darüber hinaus wiesen diese beiden Kategorien statistisch signifikante Beziehungen zu allen in diesem Bericht aufgeführten konvergenten Variablen und Kriteriumsvariablen auf. Obwohl diese Statistiken nicht im technischen Bericht enthalten sind, sind sie auf Anfrage erhältlich.
Unsere Validierungstests wurden nur in den USA und auf Englisch durchgeführt. Es ist fast immer so, dass die Validierung innerhalb eines Landes und einer Sprache beginnt, und wenn dann eine interkulturelle Validierung erforderlich ist, erfolgt sie später durch zusätzliche Studien.
Wir stellen auch fest, dass es einen wichtigen Unterschied gibt zwischen der Frage, ob eine Bewertung kulturübergreifend gültig ist, und ob es einfach Unterschiede zwischen den Kulturen gibt. So finden wir zum Beispiel einige demografische Unterschiede in unseren Daten aus den USA — einige basieren auf Rasse/ethnischer Zugehörigkeit, andere auf dem Status der Telearbeit. Das sind also Unterschiede zwischen den Gruppen. Aber unabhängig von der Gruppe sagen die Diagnosescores immer noch Ergebnisse wie Engagement und Arbeitszufriedenheit voraus. Das spricht für die Gültigkeit der Bewertung.
Alles in allem, wenn wir eine interkulturelle Studie des Diagnostic durchführen sollten, würde das in der Zukunft kommen und könnte einer überarbeiteten Version des technischen Berichts hinzugefügt werden.
Unsere Validierungsarbeit wurde von Alex O'Connor aus dem Produktteam geleitet. Er hat einen Doktortitel in Forschungspsychologie, wurde in Psychometrie ausgebildet und hat zuvor validierte Bewertungen in Fachzeitschriften veröffentlicht.
Unsere Validierungsarbeit wurde von einem externen Experten, Joshua Eng, PhD, unterstützt. Er ist Dozent an der Indiana University — School of Medical. Er ist verantwortlich für die Validierung der Bewertungen, mit denen die Lern- und Wohlfühlergebnisse von OP-Ärzten im ganzen Land gemessen werden, und verfügt über jahrzehntelange Erfahrung als Psychometriker.
Kommentare
0 Kommentare
Zu diesem Beitrag können keine Kommentare hinterlassen werden.