该报告提供了富兰克林科维领导者诊断的心理测量特性和验证报告。该诊断评估了一整套与领导力相关的技能。每项技能都使用捕捉可观察行为的项目进行评估。在本报告发布时(2023年10月),该诊断是在参与富兰克林科维课程之前和之后的360度评估中部署的。180 级版本正在开发中。
有一个验证评估的过程,有时称为心理测量。
根据行业的不同,验证过程可以标准化。但是,通常说有几个验证标准更准确,其中一些比其他更重要,但通常评估满足的验证标准越多越好。
许多销售评估的组织都会进行某种验证。主要关注评估的组织可以验证他们提出的每项评估。其他将评估作为其业务一部分的组织,例如KornFerry和Gallup,也为其最受欢迎的评估发布了大量的验证/技术报告,定期使用新数据更新这些报告或记录评估的变化。
可以理解的是,我们的许多客户都要求了解我们在富兰克林科维评估中做了哪些验证工作。
这是一份长达约15页的报告,我们重点介绍了心理测量学的两个领域:
- 诊断的可靠性——例如,人们在一周后进行评估时得分的相似程度。
- 诊断的有效性——例如,分数在多大程度上预测了工作场所的参与度和工作满意度。这通常是验证过程中最具影响力的部分。评估可能是可靠的,但如果预测不多,就没有多大价值。从理论上讲,一个告诉你你是哪个迪士尼角色的Buzzfeed测验可以达到其他标准,但除了对迪士尼角色的偏好之外,可能永远不会擅长预测其他任何东西。
我们总共分析了来自23财年诊断版本的大约20,000份回复,然后有超过一千名领导者对自己进行了评级,500多名直接下属在24财年版本的诊断中对领导者进行了评级。
该诊断在多个验证标准上符合普遍接受的标准——正态分布的响应、多种形式的可靠性和多种形式的有效性——在某些情况下,在这些标准上表现非常出色。
主要发现是,在诊断中对领导者进行更高的评级与一系列出色成果(例如参与度、工作满意度、留在组织的意愿)之间的关系非常密切。关系可与一些关于领导力的顶级学术评估相媲美。
是的。该报告涵盖以下验证标准:
- 内部一致性
- 评分者之间的可靠性
- 在不同的评估者类型之间(例如,自我评级、经理评级和直接下级评级)
- 在评估者类型中(例如,直接下属在360上对同一位经理进行评分时是否显示出彼此之间在对该经理的评分方面是否一致)
- 重测可靠性
- 因子结构(即,诊断是否为多维度量)
- 趋同有效性(即,诊断是否与其他经过验证的领导力衡量标准有关)
- 基于自评者的数据
- 并基于直接举报评估者的数据
- 标准/并发有效性(即,诊断是否与我们打算预测的结果有关:例如参与度、工作满意度和对经理效率的看法)
- 基于受访者人口统计(年龄、性别认同等)以及团队和组织变量(例如组织规模、远程工作状态)的诊断分数的差异
24 财年版本的《诊断》更短,我们更新了那些没有正常分布式答案或者与其他问题关联度过高的问题(表明它们是多余的)。这些渐进的改进使诊断更加可靠和有效。
我们基本上依赖两种类型的测试来确定新问题。
首先,我们从许多可能的问题开始,这些问题可用作替代或补充。然后,我们对受访者进行了许多小型测试,以找出在几个标准上更好的问题。我们要找的是答案范围很大的问题,最好是分数的正态分布。而且,我们正在寻找与我们希望与之关联的概念有很强关联的问题,例如,衡量领导者效率的其他指标。这个过程几乎使我们得出了最后一组问题。
该过程的第二步甚至更加复杂。这就是技术报告中详述的验证工作。
在24财年版本的诊断中,我们将响应量表上的标签从专业知识(1-新手、4-熟练、7-专家)更改为频率(1-从不,7- 永远)。注意,比额表仍然是 1-7 分制。
这种变化有几个原因:
- 频率表更符合旨在衡量行为和行为变化的评估中的标准和预期标准。
- 一些受访者和客户评论说,专业知识量表很难理解和定义(即使我们提供的新手、熟练者和专家的定义也是如此)。频率标度将得到更一致的评级者解释。而且将更容易被受访者和客户理解。
- 我们进行了一些测试和实验,改变了受访者看到的响应量表标签(专业知识与频率),发现量表标签会影响缺失数据的选择和 “无法评估” 的选择。具体而言,与频率表相比,评级者在专业水平表上进行评分时更有可能跳过评级或选择 “无法评估”。因此,我们预计新的频率表将为360的评级者提供更完整的数据。
验证 360 还有其他步骤。其中两项研究的是不同类型评级器的一致性/可靠性。这本质上是衡量自我评级是否与经理评级和同行评级等相匹配的衡量标准。Workplace 360在不同评级者之间没有太多的重叠之处。但是我们确实发现评级机构类型之间存在重叠之处,这符合行业内部的预期。解释这一发现的最佳方法是,我们的360为学习者提供了大量机会,让他们了解其他评分者对他们的评价有何不同。
验证360评估的另一个步骤是检查某类评估者内部的一致性/可靠性(例如,直接下属对同一经理的评级是否足够一致?)。我们研究了来自直接下属和经理评级机构的现有FC 360数据。在这里,我们发现评估者类型的一致性与一些最受欢迎的领导力评估类似。
这两种形式的可靠性的详细信息见技术报告 “评估者间可靠性” 一节下的内容。
虽然技术报告侧重于领导者诊断,但一些可靠性和有效性标准与个人贡献者版本有关。特别是,个人成效和制胜文化类别的内部一致性和重测指标(显示在技术报告的表2和表4中)表明,构成IC版本的这些部分是可靠的。此外,这两个类别确实显示出与本报告中详述的所有趋同变量和标准变量的统计学显著关系。尽管这些统计数据不在技术报告中,但可以根据要求提供。
我们的验证测试仅在美国完成,并且使用英语。几乎总是从一个国家和语言开始验证,然后如果需要跨文化验证,则通过其他研究进行验证。
我们还注意到,评估在不同文化之间是否有效以及是否仅存在跨文化差异之间有一个重要的区别。因此,例如,我们在美国的数据中确实发现了一些人口统计差异——有些基于种族/民族,有些基于远程工作状态。因此,这些是群体之间的差异。但是,无论属于哪个群体,诊断分数仍然可以预测参与度和工作满意度等结果。这说明了评估的有效性。
总而言之,如果我们要对诊断进行跨文化研究,那将在将来出现,并可能添加到技术报告的修订版中。
我们的验证工作由产品团队的亚历克斯·奥康纳领导。他拥有研究心理学博士学位,接受过心理测量学培训,此前曾在学术期刊上发表过经过验证的评估。
我们的验证工作得到了外部专家 Joshua Eng 博士的支持。他是印第安纳大学医学院的教师。他负责验证衡量全国外科住院医师学习和幸福效果的评估,并拥有数十年的心理测量师经验。
评论
0 条评论
文章评论已关闭。