Este relatório fornece as propriedades psicométricas e o relatório de validação do Leader Diagnostic da FranklinCovey. O Diagnóstico avalia um conjunto abrangente de habilidades associadas à liderança. Cada habilidade é avaliada com itens que capturam comportamentos observáveis. No momento deste relatório (outubro de 2023), o Diagnóstico foi implantado como uma avaliação de 360 avaliadores antes e depois da participação nos cursos da FranklinCovey. Uma versão com 180 avaliações está sendo desenvolvida.
Baixe o relatório técnico de diagnóstico completo do Leader (360)
Há um processo para validar avaliações, às vezes chamado de psicometria.
O processo de validação pode ser padronizado, dependendo do setor. Muitas vezes, porém, é mais correto dizer que existem vários critérios de validação, alguns são mais importantes do que outros, mas geralmente quanto mais critérios de validação uma avaliação atender, melhor.
Muitas organizações que vendem avaliações fazem algum tipo de validação. As organizações que se concentram principalmente nas avaliações podem validar todas as avaliações produzidas. Outras organizações que têm avaliações como um segmento de seus negócios, como a KornFerry e a Gallup, também publicam relatórios técnicos e de validação abrangentes para suas avaliações mais populares, atualizando periodicamente esses relatórios com novos dados ou para documentar alterações na avaliação.
Compreensivelmente, muitos de nossos clientes pediram para ver qual trabalho de validação fizemos em nossas avaliações da FranklinCovey.
Este é um relatório de aproximadamente 15 páginas em que nos concentramos em duas áreas da psicometria:
- A confiabilidade do diagnóstico — por exemplo, a semelhança da pontuação das pessoas quando fazem a avaliação uma semana depois.
- A validade do diagnóstico — por exemplo, quão bem as pontuações predizem o engajamento e a satisfação no trabalho. Normalmente, essa é a parte mais impactante do processo de validação. Uma avaliação pode ser confiável, mas se não prediz muita coisa, não vale muito. Um questionário do Buzzfeed que diz qual personagem da Disney você é poderia, teoricamente, atender aos outros critérios, mas provavelmente nunca será bom em prever nada além de preferências por personagens da Disney.
No total, analisamos cerca de 20.000 respostas da versão do Diagnóstico para o ano fiscal de 23 e, em seguida, mais de mil líderes avaliaram a si mesmos, e mais de 500 subordinados diretos avaliaram seus líderes na versão do Diagnóstico para o ano fiscal de 24.
O diagnóstico atende aos padrões geralmente aceitos em vários critérios de validação — respostas normalmente distribuídas, várias formas de confiabilidade e várias formas de validade — e, em alguns casos, tem um desempenho muito bom nesses critérios.
A principal conclusão é que a relação entre classificar seu líder mais alto no Diagnóstico e uma série de ótimos resultados, como engajamento, satisfação no trabalho e intenção de permanecer em sua organização, é muito forte. Relacionamentos que rivalizam com algumas das principais avaliações acadêmicas sobre liderança.
Sim. O relatório abrange os seguintes critérios de validação:
- Consistência interna
- Confiabilidade entre avaliadores
- Entre diferentes tipos de avaliadores (por exemplo, avaliadores próprios, gerentes e subordinados diretos)
- Dentro dos tipos de avaliadores (por exemplo, os subordinados diretos que avaliam o mesmo gerente no 360 mostram alguma consistência entre si em termos de como avaliam esse gerente)
- Confiabilidade teste-reteste
- Estrutura fatorial (ou seja, o diagnóstico é uma medida multidimensional)
- Validade convergente (ou seja, o diagnóstico está relacionado a outras medidas validadas de liderança)
- Com base em dados de autoavaliador
- E com base em dados diretos do avaliador
- Critério/validade simultânea (ou seja, o diagnóstico está relacionado aos resultados que pretendemos que ele preveja: como engajamento, satisfação no trabalho e percepções da eficácia do gerente)
- Diferenças nas pontuações de diagnóstico com base nos dados demográficos dos entrevistados (etc., idade, identidade de gênero) e variáveis da equipe e da organização (por exemplo, tamanho da organização, status do trabalho remoto)
A versão FY' 24 do Diagnóstico é mais curta e atualizamos as perguntas que não tinham respostas normalmente distribuídas ou tinham uma correlação muito alta com outras perguntas (sugerindo que elas são redundantes). Essas melhorias incrementais resultam em um diagnóstico mais confiável e válido.
Basicamente, confiamos em dois tipos de testes para determinar as novas perguntas.
Primeiro, começamos com muitas perguntas possíveis que poderiam ser usadas como substituições ou acréscimos. Em seguida, fazemos muitos pequenos testes com os entrevistados para encontrar as perguntas que são melhores em alguns critérios. O que estamos procurando são perguntas que tenham uma boa variedade de respostas, de preferência uma distribuição normal de pontuações. E estamos procurando perguntas que tenham fortes correlações com conceitos com os quais queremos que as perguntas sejam correlacionadas — por exemplo, outras medidas de eficácia do líder. Esse processo nos levou quase até nosso conjunto final de perguntas.
A segunda etapa do processo é ainda mais complexa. E esse é o esforço de validação detalhado no relatório técnico.
Com a versão FY' 24 do Diagnóstico, mudamos os rótulos em nossa escala de resposta de experiência (1-Novato, 4-Proficiente, 7-Especialista) para frequência (1-Nunca, 7-Sempre). Observe que a escala ainda é de 1 a 7 pontos.
Há vários motivos para essa mudança:
- Uma escala de frequência está mais alinhada com o que é padrão e esperado em avaliações destinadas a medir comportamentos e mudanças de comportamento.
- Vários entrevistados e clientes comentaram que a escala de especialização é difícil de compreender e definir (mesmo com as definições de novato, proficiente e especialista que fornecemos). Uma escala de frequência será interpretada de forma mais consistente entre os avaliadores. E será mais facilmente compreendido pelos entrevistados e clientes.
- Realizamos alguns testes e experimentos em que variamos os rótulos da escala de resposta que os entrevistados veem (experiência versus frequência) e descobrimos que os rótulos da escala afetam a seleção dos dados ausentes e a seleção de “Não é possível avaliar”. Especificamente, é muito mais provável que os avaliadores pulem uma classificação ou selecionem “Não é possível avaliar” ao classificar na escala de especialização em comparação com a escala de frequência. Portanto, esperamos que a nova escala de frequência leve a dados mais completos dos avaliadores do 360.
Há etapas extras para validar um 360. Dois deles estão analisando a consistência/confiabilidade entre os tipos de avaliadores. Isso é essencialmente uma medida de se as autoavaliações correspondem às avaliações dos gerentes, às avaliações dos pares, etc. O Workplace 360 não mostra muita sobreposição entre os tipos de avaliadores. Mas encontramos uma sobreposição entre os tipos de avaliadores que está de acordo com o que é esperado no setor. A melhor maneira de interpretar essa descoberta é que nosso 360 oferece muitas oportunidades para os alunos verem como outros avaliadores os avaliam de forma diferente.
Outra etapa para validar uma avaliação 360 é examinar a consistência/confiabilidade dentro de um tipo de avaliador (por exemplo, os subordinados diretos avaliam o mesmo gerente de forma suficientemente consistente em suas classificações?). Examinamos os dados existentes do FC 360, tanto dos avaliadores diretos quanto dos gerentes. Aqui, encontramos essa consistência em tipos de avaliadores que são semelhantes a algumas das avaliações de liderança mais populares.
Os detalhes de ambas as formas de confiabilidade estão no relatório técnico na seção Confiabilidades entre avaliadores.
Embora o relatório técnico se concentre no Diagnóstico do Líder, alguns dos critérios de confiabilidade e validade são relevantes para a versão Individual Contributor. Em particular, as métricas de consistência interna e teste-reteste para as categorias Eficácia Individual e Cultura Vencedora (exibidas nas Tabelas 2 e 4 do relatório técnico) sugerem que essas seções, que compõem a versão IC, são confiáveis. Além disso, essas duas categorias mostraram relações estatisticamente significativas com todas as variáveis convergentes e de critério detalhadas neste relatório. Embora essas estatísticas não estejam no relatório técnico, elas estão disponíveis mediante solicitação.
Nosso teste de validação foi feito somente nos EUA e em inglês. Quase sempre acontece que a validação começa dentro de um país e idioma e, se a validação transcultural for necessária, ela é feita posteriormente por meio de estudos adicionais.
Também observamos que há uma distinção importante entre se uma avaliação é válida em todas as culturas e se simplesmente existem diferenças entre as culturas. Por exemplo, encontramos algumas diferenças demográficas em nossos dados baseados nos EUA — algumas com base em raça/etnia, outras com base no status de trabalho remoto. Então, essas são diferenças entre os grupos. Mas, independentemente do grupo, as pontuações de diagnóstico ainda predizem resultados como engajamento e satisfação no trabalho. É isso que mostra a validade da avaliação.
Dito isso, se quisermos fazer um estudo transcultural do Diagnóstico, isso ocorrerá no futuro e poderá ser adicionado a uma versão revisada do relatório técnico.
Nosso trabalho de validação foi liderado por Alex O'Connor na equipe de produto. Ele tem um PhD em psicologia de pesquisa, foi treinado em psicometria e já publicou avaliações validadas em revistas acadêmicas.
Nosso trabalho de validação foi apoiado por um especialista externo, Joshua Eng, PhD. Ele é professor da Indiana University — School of Medical. Ele é responsável por validar as avaliações que medem os resultados de aprendizado e bem-estar para residentes cirúrgicos em todo o país e tem décadas de experiência como psicometrista.
Comentários
0 comentário
Artigo fechado para comentários.