Este informe proporciona las propiedades psicométricas y el informe de validación de Leader Diagnostic de FranklinCovey. El Diagnóstico evalúa un conjunto completo de habilidades asociadas con el liderazgo. Cada habilidad se evalúa con elementos que capturan comportamientos observables. En el momento de este informe (octubre de 2023), el Diagnóstico se implementa como una evaluación de 360 calificaciones antes y después de la participación en los cursos de FranklinCovey. Se está desarrollando una versión de 180 calificaciones.
Descargue el informe técnico de diagnóstico completo de Leader (360)
Hay un proceso para validar evaluaciones, a veces llamado psicometría.
El proceso de validación se puede estandarizar, dependiendo de la industria. A menudo, sin embargo, es más exacto decir que hay varios criterios de validación, algunos son más importantes que otros, pero generalmente cuantos más criterios de validación cumpla una evaluación, mejor.
Muchas organizaciones que venden evaluaciones realizan algún tipo de validación. Las organizaciones que se centran principalmente en las evaluaciones pueden validar todas las evaluaciones que producen. Otras organizaciones que tienen evaluaciones como un segmento de su negocio, como KornFerry y Gallup, también publican extensos informes técnicos y de validación para sus evaluaciones más populares, actualizando periódicamente esos informes con nuevos datos o para documentar cambios en la evaluación.
Comprensiblemente, muchos de nuestros clientes han pedido ver qué trabajo de validación hemos realizado en nuestras evaluaciones de FranklinCovey.
Este es un informe de ~15 páginas donde nos enfocamos en 2 áreas de psicometría:
- La confiabilidad del diagnóstico, por ejemplo, qué tan similar puntúan las personas cuando toman la evaluación una semana después.
- La validez del diagnóstico, por ejemplo, qué tan bien predicen los puntajes el compromiso y la satisfacción laboral en el lugar de trabajo. Por lo general, esta es la parte más impactante del proceso de validación. Una evaluación puede ser confiable, pero si no predice mucho, no vale mucho. Un cuestionario de Buzzfeed que le diga qué personaje de Disney es teóricamente podría cumplir con los otros criterios, pero probablemente nunca será bueno para predecir otra cosa que las preferencias de los personajes de Disney.
En total, analizamos alrededor de 20,000 respuestas de la versión del Diagnóstico para el año FISCAL '23, y luego más de mil líderes se calificaban a sí mismos, y más de 500 informes directos calificaban a sus líderes en la versión del Diagnóstico para el año FISCAL '24.
El diagnóstico cumple con los estándares generalmente aceptados en varios criterios de validación (respuestas normalmente distribuidas, múltiples formas de confiabilidad y múltiples formas de validez) y, en algunos casos, funciona muy bien en estos criterios.
El hallazgo principal es que la relación entre calificar a su líder más alto en el Diagnóstico y una serie de excelentes resultados, como compromiso, satisfacción laboral, intención de permanecer en su organización, es realmente fuerte. Relaciones que rivalizan con algunas de las mejores evaluaciones académicas sobre liderazgo.
Sí. El informe cubre los siguientes criterios de validación:
- Consistencia interna
- Fiabilidad entre evaluador
- Entre diferentes tipos de evaluadores (por ejemplo, evaluadores de informes independientes, gerentes y directos)
- Dentro de los tipos de evaluadores (por ejemplo, si los informes directos que califican al mismo gerente en 360 muestran alguna consistencia entre sí en términos de cómo califican a ese gerente)
- Fiabilidad de prueba-reprueba
- Estructura factorial (es decir, es el diagnóstico una medida multidimensional)
- Validez convergente (es decir, el Diagnóstico se relaciona con otras medidas validadas de liderazgo)
- Basado en datos de autoevaluadores
- Y basado en datos directos del evaluador de informes
- Criterio/validez concurrente (es decir, ¿el diagnóstico se relaciona con los resultados que pretendemos predecir: como el compromiso, la satisfacción laboral y las percepciones de la efectividad del gerente)
- Diferencias en las puntuaciones de diagnóstico basadas en la demografía del encuestado (etc., edad, identidad de género) y las variables del equipo y la organización (por ejemplo, tamaño de la organización, estado del trabajo remoto)
La versión del diagnóstico para el año fiscal 24 es más corta y actualizamos las preguntas que normalmente no tenían respuestas distribuidas o que tenían una correlación demasiado alta con otras preguntas (lo que sugiere que son redundantes). Estas mejoras incrementales dan como resultado un diagnóstico más confiable y válido.
Básicamente, hay dos tipos de pruebas en las que confiamos para determinar las nuevas preguntas.
Primero comenzamos con muchas preguntas posibles que podrían usarse como reemplazos o adiciones. Luego hacemos muchas pruebas pequeñas con los encuestados para encontrar las preguntas que son mejores en algunos criterios. Lo que estamos buscando son preguntas que tengan un buen rango de respuestas, preferiblemente una distribución normal de puntajes. Y estamos buscando preguntas que tengan correlaciones sólidas con conceptos con los que queremos que las preguntas se correlacionen, por ejemplo, otras medidas de efectividad del líder. Este proceso nos llevó casi hasta el final de nuestro conjunto de preguntas.
El segundo paso en el proceso es aún más involucrado. Y ese es el esfuerzo de validación que se detalla en el informe técnico.
Con la versión FY'24 del Diagnostic, cambiamos las etiquetas en nuestra escala de respuesta de experiencia (1-Novice, 4-Proficient, 7-Expert) a frecuencia (1-Nunca, 7-Siempre). Tenga en cuenta que la escala sigue siendo una escala de 1-7 puntos.
Hay varias razones para este cambio:
- Una escala de frecuencia está más en línea con lo que es estándar y esperado en las evaluaciones destinadas a medir los comportamientos y el cambio de comportamiento.
- Varios encuestados y clientes han comentado que la escala de experiencia es difícil de comprender y definir (incluso con las definiciones de novato, competente y experto que proporcionamos). Una escala de frecuencia se interpretará de manera más consistente entre los evaluadores. Y será más fácil de entender por los encuestados y los clientes.
- Hemos realizado algunas pruebas y experimentos en los que variamos las etiquetas de escala de respuesta que ven los encuestados (experiencia frente a frecuencia) y encontramos que las etiquetas de escala afectan la selección de los datos faltantes y la selección de “No se puede evaluar”. Específicamente, es mucho más probable que los evaluadores se salten una calificación o seleccionen “No se puede evaluar” cuando califiquen en la escala de experiencia en comparación con la escala de frecuencia. Por lo tanto, esperamos que la nueva escala de frecuencia conduzca a datos más completos de evaluadores de 360.
Hay pasos adicionales para validar un 360. Dos de ellos están analizando la consistencia/confiabilidad en todos los tipos de evaluadores. Esto es esencialmente una medida de si las autocalificaciones coinciden con las calificaciones de los gerentes y las calificaciones de pares, etc. Las calificaciones de Workplace 360 no muestran mucha superposición entre los tipos de evaluadores. Pero encontramos superposición entre los tipos de evaluadores que está en línea con lo que se espera dentro de la industria. La mejor manera de interpretar este hallazgo es que nuestro 360 ofrece muchas oportunidades para que los alumnos vean cómo otros evaluadores los califican de manera diferente.
Otro paso hacia la validación de una evaluación 360 es examinar la consistencia/confiabilidad dentro de un tipo de evaluador (por ejemplo, ¿los informes directos califica al mismo gerente lo suficientemente consistentes en sus calificaciones?). Examinamos los datos existentes del FC 360 tanto de los evaluadores directos como de los gerentes. Aquí encontramos esa consistencia dentro de los tipos de evaluador que son similares a algunas de las evaluaciones de liderazgo más populares.
Los detalles de estas dos formas de confiabilidad se encuentran en el informe técnico bajo la sección, Confiabilidades entre evaluadores.
Si bien el informe técnico se centra en el diagnóstico del líder, algunos de los criterios de confiabilidad y validez son relevantes para la versión de Colaborador Individual. En particular, la consistencia interna y las métricas de prueba de prueba para las categorías Efectividad Individual y Cultura Ganadora (que se muestran en las Tablas 2 y 4 del informe técnico) sugieren que estas secciones, que son las que componen la versión IC, son confiables. Además, estas dos categorías mostraron relaciones estadísticamente significativas con todas las variables convergentes y de criterio detalladas en este informe. Aunque esas estadísticas no están en el informe técnico, están disponibles a pedido.
Nuestras pruebas de validación se realizaron solo en los Estados Unidos y en inglés. Casi siempre es el caso de que la validación comienza dentro de un país e idioma, y luego, si se requiere una validación intercultural, se realiza más tarde a través de estudios adicionales.
También notamos que hay una distinción importante entre si una evaluación es válida en todas las culturas y si simplemente hay diferencias entre culturas. Entonces, por ejemplo, encontramos algunas diferencias demográficos en nuestros datos basados en Estados Unidos, algunas basadas en raza/etnia, otras basadas en el estado del trabajo remoto. Así que estas son diferencias entre grupos. Pero independientemente del grupo, los puntajes de diagnóstico aún predicen resultados como compromiso y satisfacción laboral. Eso es lo que habla de la validez de la evaluación.
Dicho todo esto, si vamos a hacer un estudio intercultural del Diagnóstico, eso vendría en el futuro y podría agregarse a una versión revisada del informe técnico.
Nuestro trabajo de validación fue dirigido por Alex O'Connor en el equipo de Producto. Tiene un doctorado en psicología de la investigación, se formó en psicometría y anteriormente publicó evaluaciones validadas en revistas académicas.
Nuestro trabajo de validación fue apoyado por un experto externo, Joshua Eng, PhD. Es profesor de la Universidad de Indiana — Escuela de Medicina. Es responsable de validar las evaluaciones que miden los resultados de aprendizaje y bienestar de los residentes quirúrgicos en todo el país y tiene décadas de experiencia como psicometrista.
Comentarios
0 comentarios
El artículo está cerrado para comentarios.