回归均值：不要大惊小怪，要有点定力

诺贝尔经济学奖得主丹尼尔·卡尼曼（Daniel Kahneman），可以说是决策科学的祖师爷之一。他在《思考，快与慢》一书中讲过一个故事 [1]。

卡尼曼有一次去给以色列空军做培训。他讲到一个心理学界人人皆知的观点：对良好表现的奖励，比对错误表现的惩罚要有效得多。有大量研究证据支持这个说法 [2]，不管你是教育小孩、训练运动员，甚至马戏团训练小动物，都应该以正面鼓励为主。

没想到，座中立即有一个老教官站出来表示反对。他说，我带过无数飞行员，每当有个学员做了一个极其漂亮的飞行动作，我表扬他，他下一次的动作准保变糟；可是每当有人飞得像一坨狗屎，我把他骂得狗血淋头，他下一次通常都会飞得更好！别跟我扯什么心理学，军队里就是吼叫最管用！

卡尼曼一时语塞。难道说那么多研究都错了吗？

如果你是个家长的话，你可能也有同感：孩子做错了事，你骂他一顿，他下次往往会表现好一点；他有一次考试成绩特别好，你一通猛夸，结果他下次反而考得没那么好。难道说“不打不成才”才是真理？

卡尼曼后来才意识到，老教官说的现象没错，但是解释是错的。

那不是管理学，那是统计学 —— 那不叫批评有效，那叫「回归均值（Regression to the Mean）」。这个道理是，特别好或者特别坏的表现都属于极端情况，都比较罕见 —— 所以下一次自然就没有那么极端了，你就算不批评不表扬，它也会更接近平均值。

我们上一讲说的「选择效应」，是你因为数据没看全而总结了错误的因果关系；而「回归均值」，则是你把数据的正常波动当成了因果。它会让你对极端事件过激反应。

✵

回归均值这个现象是达尔文的表弟、英国科学家弗朗西斯·高尔顿（Francis Galton）在 1886 年最早提出来的 [3]。当时他研究身高遗传，发现高个父母的孩子平均没有父母那么高，矮个父母的孩子平均也没有父母那么矮 —— 难道说上帝喜欢讲公平，专门把极端者往中间拽吗？

高尔顿想了十多年才想明白，其实逻辑很简单。事物大多有一定的运气成分，可以说，

你的观测结果 = 事物的真实水平 + 随机运气。

这哥们在某一次测试中表现得“极其好”，意味着他不仅具备一定的实力，而且那天碰巧赶上了“极其好的运气”。但获得那么好的运气的概率是很小的。所以当他下一次再测试，就算实力一点都没变，好运气大概率也不会重现了。那么他的下一次表现，就几乎注定会比这一次差。

反过来也是。这一次搞砸了，也不只是能力的问题，也是运气太差 —— 总遇到坏运气的概率是很小的，所以下次的运气就没那么差了，表现自然就提升了。

就如同有一种力量在让他的表现向真实水平“回归”一样。当然这里根本就没有什么力量。即使没有教官的表扬或者批评，好的也不会一直好，坏的也不会一直坏，这就是正常的随机波动！

可是人的大脑实在太喜欢归因了。后来卡尼曼和他的合作者阿莫斯·特沃斯基（Amos Tversky）总结 [4]，人很难理解回归均值，就经常犯两种错误：一个是错把波动当因果，一个是错把运气当实力 —— 可以统称为「回归谬误（Regression Fallacy）」。

✵

关键是极端值实在太吸引我们解读了。

如果一个人表现这么优秀，难道不是因为他本身特别强大吗？

如果一个人表现特别恶劣，难道不是因为这个人有毛病吗？

如果一个人从优秀变得平庸，难道不是因为他骄傲自满了吗？

如果一个人从恶劣变得不那么差，难道不是因为我们对他的整改见效了吗？

殊不知这一切很可能只是随机波动而已。

可是现实中你并没有波动五次的机会 —— 人们常常一看见极端值，就下结论和采取措施。

一个 CEO 取得了突破性的业绩，公司给他发放巨额奖金，杂志把他放在封面。可是研究显示，这种登上顶峰的 CEO 往往会在之后的三年里出现明显的业绩回落 [5]……于是董事会痛心疾首，说你看，这人爆红之后飘了。

一个新秀球员加入职业联赛第一年大杀四方，第二年泯然众人. 专家都说这就是“新秀墙”，他得反思自己，改变打法才行；球迷则说这人一赚了大钱就不思进取，这是“二年级魔咒”。

殊不知他们只是回归均值而已。董事会给不给奖励、新秀改不改变打法、赚没赚到钱，爆红者下一年的成绩都不会像这一年那么好。

老张有关节炎，平时膝盖就疼，有一天疼得特别厉害。邻居给他一个祖传药方，喝了之后，疼痛果然减轻了不少。你能说这药方有用吗？你要知道慢性疼痛本来就是波动的 —— 你在最低谷的时刻出手，任何疗法都容易见效。事实上，回归均值是现代医药领域判断疗效的一个非常严重的困扰因素 [6]。

足球界一直有个传说：如果球队成绩特别不好，只要换个教练，通常马上就会有奇效……那听起来就很像是回归均值。

这就如同皇上听说哪儿发生天灾，就下个罪己诏，接下来果然没有再次发生天灾 —— 你能说罪己诏有效吗？

✵

管理学是回归谬误的重灾区。

一个部门的业绩跌到了谷底，高层震怒，就把原来的主管开除，换上一个新主管。新主管搞了一套新官上任三把火的严厉改革。结果第二个月，业绩好转了！试问在这种情况下，谁能说这不是新主管有能耐、力挽狂澜呢？

可真实情况偏偏可能只是业绩经历了一次随机波动。你把一只猴子放在主管的位置上，下个月也会反弹。

小布什时代，美国搞过一场轰轰烈烈的公立教育改革，叫“不让一个孩子掉队（No Child Left Behind）”。政策的思路是根据标准化考试成绩对学校和老师进行奖惩：如果一所学校考试成绩提高了，就给发奖金；如果退步了，那就削减经费甚至可能关闭学校。

结果一年之后，那些去年排名最靠后的学校，成绩有了普遍的提高。于是有人欢呼，你看，政策有效！看来不搞绩效不行，哪怕老师也不能只讲情怀！……可问题是，如果你去考察那些前一年成绩最好的学校，你会发现他们的成绩反而下滑了。难道说老师们只认大棒，不认胡萝卜吗？答案是发生了回归均值 [7]。

可人们就是喜欢立竿见影的大整顿，最好来个雷霆手段运动式治理。

与此同时，那些在上游默默地把系统维持得很稳的人，却常常不会被看见。我们给救火队员掌声，却不给防火工程师奖金。

✵

基于回归谬误的大动作管理不但没好处，而且很有坏处。

1980 年代，美国统计学家、后来被誉为现代质量管理之父的威廉·戴明（W. Edwards Deming），提出了一个「漏斗实验（Funnel Experiment）」[8]，那可能是管理学里最漂亮的寓言。

想象你在桌子上画一个靶心，在靶心的正上方放一个漏斗，让漏斗对准靶心。你把一颗一颗的小球从漏斗里扔下来，目标是让小球能够命中靶心。

不管你这个漏斗端得多平、瞄得多准，小球在下落过程中撞到漏斗的内壁，路线难免会产生一些偏差。如果你看到一个小球没有落在靶心上，落偏了，请问这时候你怎么办？

戴明设想了四种应对规则，代表四种管理方法。

规则一 是什么都别动。只要我相信漏斗已经对准了靶心，我完全可以认为小球的波动都是随机现象，没必要整改。

这是有定力的管理！小球的落点会围着靶心做正态分布，事实上这样的方差是最小的。

规则二 是基于偏差从上一次的漏斗位置做反向补偿。小球往左偏了 2 厘米，那我下次就把漏斗往右移动 2 厘米。

这是跟着结果跑的管理方式。顾客说这次菜做咸了，那我下次就少放一点盐。有人投诉我们产品的尺寸有点偏大，那我们就做小一点；下次人家又说尺寸小了，那我们就再改大一点。这样改来改去没定性，计算模拟发现它能把方差扩大一倍。

规则三 则是参照桌子上的靶心做反向补偿。小球往左偏了 2 厘米，那我下次就把漏斗放在距离靶心右边 2 厘米的地方。

如果说规则二是管理者认为自己的公司有问题，那规则三就是管理者认为自己的指挥有问题：我瞄得不够准！我们产品质量不行，看来是我管得不够严！竞争对手竟然降价，那我们要降得比他还多，我们跟他打价格战！结果就是运动式治理，今天一个口号明天一个大作战……系统被左右抽打，振荡越来越厉害，搞不好小球飞出桌面都有可能。

规则四 更有意思：上一颗小球落哪儿，下一次就把漏斗挪到哪儿。

你说哪有这样搞管理的？其实真有，这就是公司没有标准也不看市场反馈，活儿怎么干全靠找感觉。师傅带徒弟口耳相传，这一代自动把上一代当榜样……结果越走越偏，最后都不知道自己在干什么。

这个道理是不要对偏差做过度的反应。你可以先多测几次，感觉漏斗对得差不多准就可以了，一定程度的误差都是可以容忍的 —— 否则你的管理就是添麻烦，而且可能是大麻烦。

当时就有个现成的案例 [9]。福特公司出一款新车型，决定搞双源采购，让本土的福特工厂和日本的马自达工厂用同一套图纸，生产完全相同的自动变速箱。结果搭载福特变速箱的汽车，投诉率和保修索赔率非常高；而马自达工厂生产的变速箱运行得就非常平稳。这是为啥呢？

原来福特的质量管理思路更像漏斗实验里的规则二：只要尺寸稍微偏离目标，哪怕还在规定公差范围内，也赶紧调机床。而马自达更像规则一：尽量先把机床调好，此后只要过程稳定，就不追着每个点乱调。

正如戴明所料，福特的公差比马自达大很多。过于勤勉的纠偏等于是给系统注入额外波动。

眼里不揉沙子见到毛病就改，可不是好管理. 往往什么都不做比大惊小怪好得多。

✵

人有多容易被回归均值迷惑呢？我调研中有个震惊的发现。著名的「邓宁—克鲁格效应（Dunning–Kruger Effect）」，在相当程度上，其实是回归均值导致的。

我们《精英日课》专栏以前专门讲过邓宁—克鲁格效应 [10]。它的意思是：越是愚蠢的人越容易高估自己；而聪明人都比较谦虚，倾向于低估自己。这个规律听着挺直构，但是 2020 年以来，学术界提出了很多质疑 [11]。

我们抛开技术细节简单说。研究人员判断一个受试者是聪明还是愚蠢，是通过在实验室里让他做一套测试题。既然是做题，就有人发挥好，有人发挥不好 —— 特别高和特别低的分都有运气成分。

可是当你让人做自我评价的时候，受试者的说法肯定会接近自己平时的均值。这个均值对发挥不好的人来说，肯定比他现场的表现要高；而对发挥好的人来说，则比他现场分数要低。对吧？

于是在你看来，就是低分的人高估了自己，高分的人低估了自己！殊不知这只是个统计效应.

也有人认为不完全是统计效应，说邓宁—克鲁格效应还是真实存在的，只是没有此前估计的那么严重而已 [12]……但我想说的要点是，想要从观测中获得一点真知，是非常困难的。学术界严谨到这个程度，还不敢说有定论。

那你说，连做学术研究的都这么难以判断真相，我又如何知道眼前这个事儿是真的趋势变了，还只是一个随机的波动呢？

这可是统计学最根本的问题。除了看更多、更全面的数据，没有简单办法。就回归均值而言，你至少应该问自己四个问题：

我是不是因为一个极端值才开始注意这件事？
我看到的是一个点，还是多期数据？
如果我什么都不做，它会不会自己缓回来一点？
系统的生成机制有没有真的改变？

最稳妥的办法是使用贝叶斯公式，每次稍稍更新一下自己的先验。

✵

这一讲最重要的教训是决策定力。

孩子闯了个祸，你没必要发火，他自己也很难受；员工搞砸一项任务，你不用找他谈话更不用整改，他下次不至于如此；学生这次考试倒数第一，你先别忙上价值……同样的，老板偶尔办对了一件大事，你们也不用着急把他往天上捧。

飘风不终朝骤雨不终日，极端不是常态，有见识的人不会事事都管。

听风就是雨，今天跌 2% 你就觉得末日降临，明天涨 1% 你就以为牛市开启，看见不寻常就坐不住，一激动就重奖重罚，这种戏多的决策者能把系统折腾死。

有道是 ——

一时高，不必封神；一时低，不必诛心。峰谷本是寻常事，涨落无非一阵云。识得均值回归路，方知遇事缓三分。临变何须多惊怪，大度能容是大人。

注释

[1] Kahneman, Daniel. Thinking, Fast and Slow. New York: Farrar, Straus and Giroux, 2011.

[2] Zoder-Martell, Kimberly A., Margaret T. Floress, Ronan S. Bernas, Brad A. Dufrene, and Samantha L. Foulks. 2019. “Training Teachers to Increase Behavior-Specific Praise: A Meta-Analysis.” Journal of Applied School Psychology 35 (4): 309–338.

[3] Galton, Francis. “Regression towards Mediocrity in Hereditary Stature.” Journal of the Anthropological Institute of Great Britain and Ireland 15 (1886): 246–263. 另见《精英日课》第二季，总有一种力量让我们回归平均。

[4] Kahneman, Daniel, and Amos Tversky. “On the Psychology of Prediction.” Psychological Review 80, no. 4 (1973): 237–251.

[5] Malmendier, Ulrike, and Geoffrey Tate. 2009. “Superstar CEOs.” The Quarterly Journal of Economics 124 (4): 1593–1638.

[6] Morton, Veronica, and David J. Torgerson. “Effect of Regression to the Mean on Decision Making in Health Care.” BMJ 326, no. 7398 (2003): 1083–1084.

[7] Smith, Gary, and Joanna Smith. “Regression to the Mean in Average Test Scores.” Educational Assessment 10, no. 4 (2005): 377–399.

[8] Deming, W. Edwards. Out of the Crisis. Cambridge, MA: MIT Press, 1986.

[9] Bellows, Bill. 2016. “Specification-based Management Is Not Sufficient.” The W. Edwards Deming Institute.

[10] 《精英日课》第三季，进步使人虚心，落后使人骄傲

[11] Gignac, Gilles E., and Marcin Zajenkowski. “The Dunning-Kruger Effect Is (Mostly) a Statistical Artefact: Valid Approaches to Testing the Hypothesis with Individual Differences Data.” Intelligence 80 (2020): 101449; Magnus, Jan R., and Anatoly A. Peresetsky. “A Statistical Explanation of the Dunning-Kruger Effect.” Frontiers in Psychology 13 (2022): 840180.

[12] Jansen, Rachel A., Anna N. Rafferty, and Thomas L. Griffiths. “A Rational Model of the Dunning-Kruger Effect Supports Insensitivity to Evidence in Low Performers.” Nature Human Behaviour 5, no. 6 (2021): 756–763. 756–763.