了解信度与效度,为组织精准选才!
      近年来,随着人才测评技术在国内的广泛运用,越来越多的组织开始关注人才测评工具,希望能在组织中引入可靠且准确的科学人才测评工具,提高人才管理的准确性!面对众多的人才测评工具,企业HR该如何判断这些工具是否可靠且准确呢?心理测量学中的信度与效度两个指标,就可以很好地帮助企业管理者选择更科学可靠的人才测评工具。

什么是人才测评工具的信度与效度?

      信度是指测评结果的一致性、稳定性及可靠性,即多次测评的结果都是一致或接近的。简单来说,我们想用某智商测评工具测量某人的智商,如果第一次测量结果是100分,第二次测量结果是80分,而第三次测量结果是130分,由于多次测量结果不一致,我们就说这个测评工具的信度有问题,即这个测评工具的测量数据不可靠!
      效度是指测评结果能准确有效地测试到我们想了解的指标。简单来说,如果我们想用某个工具测量某人的责任心,而测量结果反映的却是这个人的沟通能力,不是我们想要的责任心,我们就说这个测评工具的效度有问题,即这个测评工具的测量内容不准确!
      为了更好地理解,我们用打靶图来进一步说明信度与效度,如下图一:

      第一张靶图所有的点都散乱地分布在靶上。测试既没有击中目标(没有效度),每次的环数也不一样(没有信度),这种情况是我们最不想要的结果,可以说这个测评工具是完全无效的;
      第二张靶图所有的点分布较为集中,但没有击中靶心。测试没有击中目标(没有效度),但每次的环数都很一致(有信度),这种情况可以说这个测评工具可信,但没有测试到我们想测试的东西;
      第三张靶图所有的点都击中靶心。测试击中目标(有效度),每次的环数也都很一致(有信度),这种情况是我们最想要的结果,可以说这个测评工具既测量到了我们想测量的东西,结果也非常可信;
      企业在招聘过程中,也需要特别关注人才测评工具的信度与效度。比如我们想要测试小张的言语理解能力,如果第一次测试结果是“90分”,第二次测试结果是“100分“,第三次测试结果又是“70分”的,这种多次的测试结果不稳定,我们就说该测评工具的信度有问题;如果实际测试结果反映的是”逻辑推理能力“或”数学运算能力“,而不是我们想要的“言语理解能力”,我们就说此次测评工具的效度有问题。只有多次的测试结果都表明小张的言语理解能力是一致或接近的,我们就说该测评工具是可靠且准确的。当然,我们可以看到效度是人才测评工具的最核心指标,如果测评工具不能准确有效地测量到目标素质,关心这个测评工具的信度是没有任何意义的。

信度与效度高低的表示方法

      我们已经理解什么是信度与效度,但在人才测评中该如何表示信度与效度的高低呢?
      在实际甄选工作中,我们常常听到别人在问,“这次的测试题目可不可靠啊?“、”这套测试题目的甄选效果好不好啊?“……而一般的回答是,“还不错,有70%-80%的准确性吧”。这些关于判断人才测评工具的准确性的回答都是不科学的,信度与效度都不是按照百分比来表示高低的。
      在人才测评中,信度的大小采用0-1表示,越接近1,则该测评工具的信度越高。比如某公司的MBTI职业人格类型量表各维度的信度为0.8以上,我们就说该人格类型量表的信度高。通常来说,如果测评工具的信度系数低于0.6,表明这个测评工具的可靠性较差;信度系数在0.6-0.8之间,表明这个测评工具的可靠性比较良好;而信度系数达到0.8以上,表明这个测评工具的可靠性非常高。
      与信度相似,效度的测量系数也采用0-1表示,越接近1,则表示该人才测评工具的效度越高,越能有效测量到我们想了解的素质。有研究者对常用的人才测评工具的效度系数总结如下图所示:

      可以发现,目前效度最高的测评工具是评价中心技术,除此之外,情境模拟、能力测验、结构化面试、人格测评也具有良好的效度,这些测评工具都能有效测量到我们想了解的素质。但也有一些测评方法的准确性非常低,比如笔迹、非结构化面试的效度非常低,而我们关注的学历与工作年限也有一定的效度,但分值也偏低,只根据这些个人信息来筛选人才效果是较为有限的。

信度与效度的衡量方法

      从上面可以看出,人才测评工具的信度与效度的测量系数,越接近于1,测评工具的信度与效度越高。有哪些方法可以准确地衡量信度与效度的高低呢?

衡量信度的方法

(1)重测信度:同样测评工具在不同时间测评结果的一致程度。比如第一次测试小张的逻辑推理能力是“90分”,第二次、第三次测试小张的逻辑推理能力也都是“90分”。这种情况下,我们会说这个测评工具的重测信度非常高。
(2)折半信度:比如把一套能力测试题对半分为难度一致的两套题,这两套题测试小张的言语理解能力都是“90分”。这种情况下,我们会说这个测评工具的折半信度非常高。
(3)复本信度:比如有两套难度、长度、排布、内容上尽可能相似类同的言语理解能力测试题,测试同一对象,测得结果都是“90分”。这种情况下,我们会说这个测评工具的复本信度非常高。
(4)内部一致性:指一套测评工具某一个维度所有题目之间的一致程度。比如测量逻辑推理能力的测试题,对其不同题目之间的得分进行分析,结果发现各题目间的相关性非常高。这种情况下,我们会说这个维度的内部一致性非常高。
(5)评分者间信度:不同的评分者使用相同的工具,所得结果的一致程度。比如面试官甲、乙、丙三人都面试小张的沟通能力,评价结果都是”良好“。这种情况下,我们会说整个面试的评分者间信度非常高。

衡量效度的方法

(1)内容效度:测评工具的测评内容与我们想了解的素质是相符的。比如采用一套能力测试题测量一组员工的言语理解能力,实际测得他们的能力就是言语理解能力,而不是逻辑推理或数学运算等其他能力。这种情况下,我们会说这个测评工具的内容效度非常高。
(2)结构效度:测评工具实际测试出来的结构与理论构想是相吻合的。比如某公司新开发的MBTI职业人格类型量表,如果实际测得的量表结构符合理论上的职业人格类型结构。这种情况下,我们会说这个测评工具的结构效度非常高。
(3)效标关联效度:也称为实证效度、预测效度,通过某种人才测评的方法能够在多大程度上预测未来的工作业绩,这也是企业最关心的一种效度。为了更好理解效标关联效度的概念,我们采用坐标图的方式说明(如图三)。

      如上图所示:假设有100名求职者来应聘某岗位,如果我们将所有人都招聘进来,则纵坐标表示采用某测评工具对每个人的评价得分(预测好/不好,横坐标表示实际工作业绩的好坏(实际好或者不好),最后这100名员工在该坐标图中就会形成一个散点图。根据评价与实际情况的吻合度,可以有四种情况:
       正确接受:评价好,实际工作业绩也好
       正确拒绝:评价不好,实际工作业绩也不好
       错误接受:评价好,实际工作业绩不好
       错误拒绝:评价不好,实际工作业绩好
      如果一个工具是非常完美的,即效度最高为1的情况下,所有的点都在正确接受与正确拒绝区域,没有任何点在错误接受与错误拒绝区域,这个时候,散点图就成了一条从下到上的直线;如果一个工具完全没有效度,即效度为0 的情况下,选人就成了胡乱随机的过程,这个时候,散点图就会形成一个圆形。当然,实际上,一个工具不可能达到完美,也不会完全无效,多数情况下会形成一个椭圆,正确区域的比例越高,我们就会说一个工具的效标关联效度越高。

总结

      综上所述,信度是指测评结果的一致性、稳定性及可靠性,信度系数越接近于1,测评工具的信度越高,常采用重测信度、折半信度、评分者信度、复本信度和内部一致性等方法进行衡量;效度是指测评结果能准确有效地测试到我们想了解的指标,效度系数越接近于1,测评工具的效度越高,常采用内容效度、结构效度和效标关联效度等方法进行衡量。
      我们希望企业管理者能够正确理解信度与效度的概念,选择高质量的人才测评工具,为组织精准选才!甄选出企业“最适合”的优秀人才!
周群力, 高级人才测评与命题专家
北京师范大学应用心理硕士
北京市人事考试中心命审题专家
北京师范大学心理学部应用心理硕士(MAP)实践教学导师
长期从事人才测评与选拔工作,擅长测验工具开发、笔面试命题与评价、测验产品设计等,曾为中央国家机关、新华社、孔子学院、国家电网、百度、腾讯、中国银行、金融街控股等企业和组织提供人才管理咨询和测评选拔服务
文章排行
  1. 员工敬业度:从Q12到A12
  2. 了解信度与效度,为组织精准选才!
  3. 组织公民行为及其影响因素
  4. 条件推理测试(CRT),内隐测量的浪漫!
  5. 通过实战演练选拔管理人员——文件筐测验操作实务
  6. 小工具,大用途 ——360度反馈及其国内实践
  7. 员工反生产行为概述及管理对策
  8. 无领导小组讨论的题目编制
  9. 关于满意度与敬业度提升模型的实证研究
  10. 情境判断测验(SJT)的大脑反应机制
您的浏览历史