听从专家的建议

苹果7s2022-08-23 17

“建议专家不要建议”为什么是对的？

为什么“劝专家不劝”是正确的？

刚刚过去的这个周末，人教版教材问题持续发酵，专家和机构的公信力再次陷入危机。

这让我们想起了两周前，有一句话被热搜反复搜索，叫做“劝专家不要出主意”。

当时有媒体分析为什么网民不喜欢专家，大多是谈“公共话题”。

网民和专家并不买账。他们一方面认为“专家站着说话不腰疼”，不给意见。当然，在另一种情况下，如果专家自己“坐以待毙”，民众不仅无法相信，还会被问责。

但是，以上都属于专家的主观层面。我们想说的是“劝专家不劝”的一个客观依据:

相信专家，还不如相信机器。

即使你对专家不感兴趣，这个结论也有些反直觉。我们举个招聘的例子。

想象你是一个校长。你的学校想招聘一名行政主管。现在有两个候选人。在此之前，两位候选人已经经历了层层面试。前几轮的面试官分别从五个维度(满分10分)给两位候选人打分。以下是他们在每个项目上的平均得分:

考生A:领导力7分，表达能力6分，人际沟通7分，商业技能8分，自我激励8分。

b:领导力8分，表达力10分，人际沟通6分，业务技能5分，上进心5分。

请问校长，你觉得你应该选谁？

我们大概可以总结出三种比较思路:

1.最简单粗暴的，再平均一下每个人五项的分数。这里A是7.2分，B是6.8分，所以你需要A。

2.往深里想，A似乎各方面能力一般，而B有一个明显的强项，那就是表达能力。10分是什么概念，就是前面面试他的人都给了满分。行政职位和沟通能力比业务能力更重要吗？如果是，那么应该选B。

3.再进一步想，表达能力固然重要，但有多重要，比业务技能重要一倍？两次？那么，是不是应该结合一些数据，对这五个指标进行加权平均，这样计算出来的结果会更科学呢？

在这里，“想法2”是一种基于个人经验和直觉的判断，我们称之为“临床判断”。专家做出的判断基本都是“临床判断”，因为这个判断必须包含专家自身的主观经验(比如表达能力是核心指标)。

相反，“想法1”和“想法3”被称为“机械判断”，是一种基于数据的判断，其中“想法1”是简单模型，“想法3”是复杂模型。

根据我们一般人的判断，在这三个想法中，“想法1”似乎是最不合理的，所以是最差的策略，但真正的结论是:

机械判断强于临床判断(即专家判断)，简单的机械判断不逊于复杂的机械判断。

刚才候选人A和候选人B的案例来自一个真实的研究，其中“想法二”(即强调表达能力)的临床判断是众多专家模型中比较典型的一个。

于是，一群专业的心理学家做出了自己的预测模型，但是这个结果和实际工作表现的相关系数只有0.15，也就是说专家的判断类似于抛硬币的效果。

这项研究不是一个孤立的案例。早在2000年，就有人对136项研究进行了综合调查，包括各种预测课题，如黄疸的诊断、服兵役的适应性、婚姻满意度等等。结果是:

其中63个机械判断比较准确，65个机械判断和临床判断一样好，只有8个临床判断比较好。

我们这里还没有计算决策的成本。机械判断明显比临床判断快很多，完全不需要聘请专家，省时省力省钱。

但这是为什么呢？其实玄机很简单:人只要做出判断，就必然伴随着各种不可预知的干扰。我们之前介绍过，这个东西叫“噪音”。(点击查看对“噪音”的解释)

这仍然是一个开始的例子。为什么专家不同意简单平均分法？因为专家认为太一刀切了。

比如，我们都听说过，有些数学天才从小就痴迷于数学，但英语却很差。如果取平均分，这样的数学天才肯定上不了大学。我们不应该仅仅因为英语不好就杀死一个天才，对吗？

专家的逻辑是:要具体问题具体分析。听起来很有道理。

但请注意，这正是问题所在-

我们往往高估了“具体问题具体分析”的有效性和实用性。

开头例子中的考生B，表情得分满分10分。这真的意味着他是一个表达天才吗？当只有两个候选人时，其中一个得10分。这10分只能算是“比较水平”，很可能不是“最高级水平”。这种情况下，赌一个指标有风险，不靠谱。

更有可能你认为的特殊情况只是一般情况。你给你认为的特殊情况打满分，这个分数虚高的可能性大于他真的值满分。

所以“数学天才英语差”的故事模式经不起实践。极少数真正的天才确实可以通过自主招生录取，但99.99%的学生走不了这条路——

到韦神这个级别，也许可以聊聊保送北大的事

你认为自己是数学天才，但和最顶尖的一群人相比，你可能相形见绌。所以如果你想考上好的大学，请尽你所能提高各科成绩。这本身就是最公平的选择方法。

我们总结一下，机械判断和临床判断的区别是什么:

机械判断的缺点是似乎抹杀了一些“特殊情况”，缺乏“细微的考虑”，但研究结果告诉我们，这些所谓细微的考虑所带来的好处并不像噪音那样具有破坏性。

机械模型，不带情绪，即使使用非常简单甚至不合理的模型(比如在开头的例子中，随机选取一个评分项作为高权重)，到最后，概率也比专家高77%。

丹尼尔·卡内曼对此有一句经典的评论:“你几乎不可能做出比专家表现更差的模型。”

事实上，当事情发生时，用“机械判断”代替咨询专家，在50年代就是一个例子。

1953年，麻醉师阿普加设计了一个判断新生儿健康与否的模型，也叫阿普加量表，有五个指标:

肤色、心率、刺激反应、肌肉张力、呼吸

然后医生给每一项打分，可以是0分、1分、2分，比如肤色，全身粉色给2分，四肢青紫给1分，全身青紫给0分。

最后，你只需要把五个分数简单相加，不需要加权平均。该模式满分为10分。只要宝宝总分达到7分，就是健康，4-6分，不太健康，0-3分。应该立即采取急救措施。

现代癌症医学筛查也有类似的评分系统。这几个维度的判断简单易行，相对不受医生经验和水平的影响。事实证明准确率很高。

然而，一个问题自然产生了:既然机械判断这么有效，为什么不在各行各业普及呢？为什么我们经常会听到各种专家的观点？

比如在医院，大部分的诊断还是医生的临床诊断，而不是真的用模型。像开头提到的招聘场景，或者公司要不要启动一个新项目，“打分法”似乎并没有被认真采用。

除了增加就业机会的社会学意义(很多人要被打分法裁掉)之外，还有一个很重要的原因:

人类对机械判断的容忍度太低。

试想一下，如果人类的判断是错误的(其实专家几乎每天都会犯错)，虽然我们会吐槽，但我们认为这终究是正常的，因为人早就犯错了；但是如果机械模型错了，或者算法错了，哪怕错了一两次，我们都会产生怀疑，可能再也不会用了。

有点像现在的自动驾驶技术。在可预见的未来，自动驾驶发生事故的概率肯定会低于人类驾驶员。这是肯定的，但是我们心里可以容忍人为事故，但是不能容忍自动驾驶因为程序问题发生事故(特斯拉肯定是认同这种说法的)。

换句话说，我们认为犯错是人类的特权，但机器不应该犯错。

从这个意义上说，虽然我们“劝专家不要给建议”，但让机器给模型提建议，难免会犹豫。

可能最后我们没有听专家的，而是听了亲戚邻居或者校友的建议(但是这些人的建议并不比专家的好)。这大概是不可逾越的人性——

说了这么多，最后真的不能相信机器和模型。

比如孩子高考后填报志愿时，全家人在几所大学和几个专业之间举棋不定。很多人在这个时候会选择咨询自己的亲朋好友:只要我咨询的人日常表现是可靠的，那么他的建议应该是可靠的吧？

还有比这更好的决策方法吗？也许这时候你就需要一台“无情的机器”了。

“网易高考智愿”网站（daxue.163.com）为千万学子家长提供及时专业、深度权威的报考指导，帮助考生把握未来就业方向、职业生涯规划，传授报考方法技巧，更加人性化地切入个人兴趣和未来发展趋势。

它可以—

智能推荐最适合你的大学和专业

为您解答相关专业的就业前景

还能为您带来第一手专业前沿资讯

也会引进一些发展前景很大的小众专业

点击“网易高考志愿”网站说明↑。

即日起6月7日零点前，在“网易高考心愿”网站注册购买志愿版/规划版会员卡，即可享受早鸟价，获得300元限时券！

298元入手一张原价598元的志愿者会员卡

398元起步计划会员卡原价698元。

机不可失，为孩子一生中最重要的决定赶快行动吧！

转载请注明原文地址:https://juke.outofmemory.cn/read/1301084.html

00 生成海报

听从专家的建议

建议

专家

尾牙的含义

包头疫情最新通知