为什么“劝专家不劝”是正确的?
刚刚过去的这个周末,人教版教材问题持续发酵,专家和机构的公信力再次陷入危机。
这让我们想起了两周前,有一句话被热搜反复搜索,叫做“劝专家不要出主意”。
当时有媒体分析为什么网民不喜欢专家,大多是谈“公共话题”。
网民和专家并不买账。他们一方面认为“专家站着说话不腰疼”,不给意见。当然,在另一种情况下,如果专家自己“坐以待毙”,民众不仅无法相信,还会被问责。
但是,以上都属于专家的主观层面。我们想说的是“劝专家不劝”的一个客观依据:
相信专家,还不如相信机器。
即使你对专家不感兴趣,这个结论也有些反直觉。我们举个招聘的例子。
想象你是一个校长。你的学校想招聘一名行政主管。现在有两个候选人。在此之前,两位候选人已经经历了层层面试。前几轮的面试官分别从五个维度(满分10分)给两位候选人打分。以下是他们在每个项目上的平均得分:
考生A:领导力7分,表达能力6分,人际沟通7分,商业技能8分,自我激励8分。
b:领导力8分,表达力10分,人际沟通6分,业务技能5分,上进心5分。
请问校长,你觉得你应该选谁?
我们大概可以总结出三种比较思路:
1.最简单粗暴的,再平均一下每个人五项的分数。这里A是7.2分,B是6.8分,所以你需要A。
2.往深里想,A似乎各方面能力一般,而B有一个明显的强项,那就是表达能力。10分是什么概念,就是前面面试他的人都给了满分。行政职位和沟通能力比业务能力更重要吗?如果是,那么应该选B。
3.再进一步想,表达能力固然重要,但有多重要,比业务技能重要一倍?两次?那么,是不是应该结合一些数据,对这五个指标进行加权平均,这样计算出来的结果会更科学呢?
在这里,“想法2”是一种基于个人经验和直觉的判断,我们称之为“临床判断”。专家做出的判断基本都是“临床判断”,因为这个判断必须包含专家自身的主观经验(比如表达能力是核心指标)。
相反,“想法1”和“想法3”被称为“机械判断”,是一种基于数据的判断,其中“想法1”是简单模型,“想法3”是复杂模型。
根据我们一般人的判断,在这三个想法中,“想法1”似乎是最不合理的,所以是最差的策略,但真正的结论是:
机械判断强于临床判断(即专家判断),简单的机械判断不逊于复杂的机械判断。
刚才候选人A和候选人B的案例来自一个真实的研究,其中“想法二”(即强调表达能力)的临床判断是众多专家模型中比较典型的一个。
于是,一群专业的心理学家做出了自己的预测模型,但是这个结果和实际工作表现的相关系数只有0.15,也就是说专家的判断类似于抛硬币的效果。
这项研究不是一个孤立的案例。早在2000年,就有人对136项研究进行了综合调查,包括各种预测课题,如黄疸的诊断、服兵役的适应性、婚姻满意度等等。结果是:
其中63个机械判断比较准确,65个机械判断和临床判断一样好,只有8个临床判断比较好。
我们这里还没有计算决策的成本。机械判断明显比临床判断快很多,完全不需要聘请专家,省时省力省钱。
但这是为什么呢?其实玄机很简单:人只要做出判断,就必然伴随着各种不可预知的干扰。我们之前介绍过,这个东西叫“噪音”。(点击查看对“噪音”的解释)
这仍然是一个开始的例子。为什么专家不同意简单平均分法?因为专家认为太一刀切了。
比如,我们都听说过,有些数学天才从小就痴迷于数学,但英语却很差。如果取平均分,这样的数学天才肯定上不了大学。我们不应该仅仅因为英语不好就杀死一个天才,对吗?
专家的逻辑是:要具体问题具体分析。听起来很有道理。
但请注意,这正是问题所在-
我们往往高估了“具体问题具体分析”的有效性和实用性。
开头例子中的考生B,表情得分满分10分。这真的意味着他是一个表达天才吗?当只有两个候选人时,其中一个得10分。这10分只能算是“比较水平”,很可能不是“最高级水平”。这种情况下,赌一个指标有风险,不靠谱。
更有可能你认为的特殊情况只是一般情况。你给你认为的特殊情况打满分,这个分数虚高的可能性大于他真的值满分。
所以“数学天才英语差”的故事模式经不起实践。极少数真正的天才确实可以通过自主招生录取,但99.99%的学生走不了这条路——
到韦神这个级别,也许可以聊聊保送北大的事你认为自己是数学天才,但和最顶尖的一群人相比,你可能相形见绌。所以如果你想考上好的大学,请尽你所能提高各科成绩。这本身就是最公平的选择方法。
我们总结一下,机械判断和临床判断的区别是什么:
机械判断的缺点是似乎抹杀了一些“特殊情况”,缺乏“细微的考虑”,但研究结果告诉我们,这些所谓细微的考虑所带来的好处并不像噪音那样具有破坏性。
机械模型,不带情绪,即使使用非常简单甚至不合理的模型(比如在开头的例子中,随机选取一个评分项作为高权重),到最后,概率也比专家高77%。
丹尼尔·卡内曼对此有一句经典的评论:“你几乎不可能做出比专家表现更差的模型。”
事实上,当事情发生时,用“机械判断”代替咨询专家,在50年代就是一个例子。
1953年,麻醉师阿普加设计了一个判断新生儿健康与否的模型,也叫阿普加量表,有五个指标:
肤色、心率、刺激反应、肌肉张力、呼吸
然后医生给每一项打分,可以是0分、1分、2分,比如肤色,全身粉色给2分,四肢青紫给1分,全身青紫给0分。
最后,你只需要把五个分数简单相加,不需要加权平均。该模式满分为10分。只要宝宝总分达到7分,就是健康,4-6分,不太健康,0-3分。应该立即采取急救措施。
现代癌症医学筛查也有类似的评分系统。这几个维度的判断简单易行,相对不受医生经验和水平的影响。事实证明准确率很高。
然而,一个问题自然产生了:既然机械判断这么有效,为什么不在各行各业普及呢?为什么我们经常会听到各种专家的观点?
比如在医院,大部分的诊断还是医生的临床诊断,而不是真的用模型。像开头提到的招聘场景,或者公司要不要启动一个新项目,“打分法”似乎并没有被认真采用。
除了增加就业机会的社会学意义(很多人要被打分法裁掉)之外,还有一个很重要的原因:
人类对机械判断的容忍度太低。
试想一下,如果人类的判断是错误的(其实专家几乎每天都会犯错),虽然我们会吐槽,但我们认为这终究是正常的,因为人早就犯错了;但是如果机械模型错了,或者算法错了,哪怕错了一两次,我们都会产生怀疑,可能再也不会用了。
有点像现在的自动驾驶技术。在可预见的未来,自动驾驶发生事故的概率肯定会低于人类驾驶员。这是肯定的,但是我们心里可以容忍人为事故,但是不能容忍自动驾驶因为程序问题发生事故(特斯拉肯定是认同这种说法的)。
换句话说,我们认为犯错是人类的特权,但机器不应该犯错。
从这个意义上说,虽然我们“劝专家不要给建议”,但让机器给模型提建议,难免会犹豫。
可能最后我们没有听专家的,而是听了亲戚邻居或者校友的建议(但是这些人的建议并不比专家的好)。这大概是不可逾越的人性——
说了这么多,最后真的不能相信机器和模型。
比如孩子高考后填报志愿时,全家人在几所大学和几个专业之间举棋不定。很多人在这个时候会选择咨询自己的亲朋好友:只要我咨询的人日常表现是可靠的,那么他的建议应该是可靠的吧?
还有比这更好的决策方法吗?也许这时候你就需要一台“无情的机器”了。
“网易高考智愿”网站(daxue.163.com)为千万学子家长提供及时专业、深度权威的报考指导,帮助考生把握未来就业方向、职业生涯规划,传授报考方法技巧,更加人性化地切入个人兴趣和未来发展趋势。它可以—
智能推荐最适合你的大学和专业
为您解答相关专业的就业前景
还能为您带来第一手专业前沿资讯
也会引进一些发展前景很大的小众专业
点击“网易高考志愿”网站说明↑。
即日起6月7日零点前,在“网易高考心愿”网站注册购买志愿版/规划版会员卡,即可享受早鸟价,获得300元限时券!
298元入手一张原价598元的志愿者会员卡
398元起步计划会员卡原价698元。
机不可失,为孩子一生中最重要的决定赶快行动吧!