回归均值:不要大惊小怪,要有点定力

诺贝尔经济学奖得主丹尼尔·卡尼曼(Daniel Kahneman),可以说是决策科学的祖师爷之一。他在《思考,快与慢》一书中讲过一个故事 [1]。
卡尼曼有一次去给以色列空军做培训。他讲到一个心理学界人人皆知的观点:对良好表现的奖励,比对错误表现的惩罚要有效得多。有大量研究证据支持这个说法 [2],不管你是教育小孩、训练运动员,甚至马戏团训练小动物,都应该以正面鼓励为主。
没想到,座中立即有一个老教官站出来表示反对。他说,我带过无数飞行员,每当有个学员做了一个极其漂亮的飞行动作,我表扬他,他下一次的动作准保变糟;可是每当有人飞得像一坨狗屎,我把他骂得狗血淋头,他下一次通常都会飞得更好!别跟我扯什么心理学,军队里就是吼叫最管用!
卡尼曼一时语塞。难道说那么多研究都错了吗?
如果你是个家长的话,你可能也有同感:孩子做错了事,你骂他一顿,他下次往往会表现好一点;他有一次考试成绩特别好,你一通猛夸,结果他下次反而考得没那么好。难道说“不打不成才”才是真理?
卡尼曼后来才意识到,老教官说的现象没错,但是解释是错的。
那不是管理学,那是统计学 —— 那不叫批评有效,那叫「回归均值(Regression to the Mean)」。这个道理是,特别好或者特别坏的表现都属于极端情况,都比较罕见 —— 所以下一次自然就没有那么极端了,你就算不批评不表扬,它也会更接近平均值。
我们上一讲说的「选择效应」,是你因为数据没看全而总结了错误的因果关系;而「回归均值」,则是你把数据的正常波动当成了因果。它会让你对极端事件过激反应。

✵
回归均值这个现象是达尔文的表弟、英国科学家弗朗西斯·高尔顿(Francis Galton)在 1886 年最早提出来的 [3]。当时他研究身高遗传,发现高个父母的孩子平均没有父母那么高,矮个父 母的孩子平均也没有父母那么矮 —— 难道说上帝喜欢讲公平,专门把极端者往中间拽吗?
高尔顿想了十多年才想明白,其实逻辑很简单。事物大多有一定的运气成分,可以说,
你的观测结果 = 事物的真实水平 + 随机运气。
这哥们在某一次测试中表现得“极其好”,意味着他不仅具备一定的实力,而且那天碰巧赶上了“极其好的运气”。但获得那么好的运气的概率是很小的。所以当他下一次再测试,就算实力一点都没变,好运气大概率也不会重现了。那么他的下一次表现,就几乎注定会比这一次差。
反过来也是。这一次搞砸了,也不只是能力的问题,也是运气太差 —— 总遇到坏运气的概率是很小的,所以下次的运气就没那么差了,表现自然就提升了。
就如同有一种力量在让他的表现向真实水平“回归”一样。当然这里根本就没有什么力量。即使没有教官的表扬或者批评,好的也不会一直好,坏的也不会一直坏,这就是正常的随机波动!
可是人的大脑实在太喜欢归因了。后来卡尼曼和他的合作者阿莫斯·特沃斯基(Amos Tversky)总结 [4],人很难理解回归均值,就经常犯两种错误:一个是错把波动当因果,一个是错把运气 当实力 —— 可以统称为「回归谬误(Regression Fallacy)」。
✵
关键是极端值实在太吸引我们解读了。
如果一个人表现这么优秀,难道不是因为他本身特别强大吗?
如果一个人表现特别恶劣,难道不是因为这个人有毛病吗?
如果一个人从优秀变得平庸,难道不是因为他骄傲自满了吗?
如果一个人从恶劣变得不那么差,难道不是因为我们对他的整改见效了吗?
殊不知这一切很可能只是随机波动而已。
可是现实中你并没有波动五次的机会 —— 人们常常一看见极端值,就下结论和采取措施。
一个 CEO 取得了突破性的业绩,公司给他发放巨额奖金,杂志把他放在封面。可是研究显示,这种登上顶峰的 CEO 往往会在之后的三年里出现明显的业绩回落 [5]……于是董事会痛心疾首,说你看,这人爆红之后飘了。
一个新秀球员加入职业联赛第一年大杀四方,第二年泯然众人. 专家都说这就是“新秀墙”,他得反思自己,改变打法才行;球迷则说这人一赚了大钱就不思进取,这是“二年级魔咒”。
殊不知他们只是回归均值而已。董事会给不给奖励、新秀改不改变打法、赚没赚到钱,爆红者下一年的成绩都不会像这一年那么好。
老张有关节炎,平时膝盖就疼,有一天疼得特别厉害。邻居给他一个祖传药方,喝了之后,疼痛果然减轻了不少。你能说这药方有用吗?你要知道慢性疼痛本来就是波动的 —— 你在最低谷的时刻出手,任何疗法都容易见效。事实上,回归均值是现代医药领域判断疗效的一个非常严重的困扰因素 [6]。
足球界一直有个传说:如果球队成绩特别不好,只要换个教练,通常马上就会有奇效……那听起来就很像是回归均值。
这就如同皇上听说哪儿发生天灾,就下个罪己诏,接下来果然没有再次发生天灾 —— 你能说罪己诏有效吗?
✵
管理学是回归谬误的重灾区。
一个部门的业绩跌到了谷底,高层震怒,就把原来的主管开除,换上一个新主管。新主管搞了一套新官上任三把火的严厉改革。结果第二个月,业绩好转了!试问在这种情况下,谁能说这不是新主管有能耐、力挽狂澜呢?
可真实情况偏偏可能只是业绩经历了一次随机波动。你把一只猴子放在主管的位置上,下个月也会反弹。
小布什时代,美国搞过一场轰轰烈烈的公立教育改革,叫“不让一个孩子掉队(No Child Left Behind)”。政策的思路是根据标准化考试成绩对学校和老师进行奖惩:如果一所学校考试成绩提高了,就给发奖金;如果退步了,那就削减经费甚至可能关闭学校。

结果一年之后,那些去年排名最靠后的学校,成绩有了普遍的提高。于是有人欢呼,你看,政策有效!看来不搞绩效不行,哪怕老师也不能只讲情怀!……可问题是,如果你去考察那些前一年成绩最好的学校,你会发现他们的成绩反而下滑了。难道说老师们只认大棒,不认胡萝卜吗?答案是发生了回归均值 [7]。
可人们就是喜欢立竿见影的大整顿,最好来个雷霆手段运动式治理。
与此同时,那些在上游默默地把系统维持得很稳的人,却常常不会被看见。我们给救火队员掌声,却不给防火工程师奖金。
✵
基于回归谬误的大动作管理不但没好处,而且很有坏处。
1980 年代,美国统计学家、后来被誉为现代质量管理之父的威廉·戴明(W. Edwards Deming),提出了一个「漏斗实验(Funnel Experiment)」[8],那可能是管理学里最漂亮的寓言。
想象你在桌子上画一个靶心,在靶心的正上方放一个漏斗,让漏斗对准靶心。你把一颗一颗的小球从漏斗里扔下来,目标是让小球能够命中靶心。
不管你这个漏斗端得多平、瞄得多准,小球在下落过程中撞到漏斗的内壁,路线难免会产生一些偏差。如果你看到一个小球没有落在靶心上,落偏了,请问这时候你怎么办?
戴明设想了四种应对规则,代表四种管理方法。

规则一 是什么都别动。只要我相信漏斗已经对准了靶心,我完全可以认为小球的波动都是随机现象,没必要整改。
这是有定力的管理!小球的落点会围着靶心做正态分布,事实上这样的方差是最小的。
规则二 是基于偏差从上一次的漏斗位置做反向补偿。小球往左偏了 2 厘米,那我下次就把漏斗往右移动 2 厘米。
这是跟着结果跑的管理方式。顾客说这次菜做咸了,那我下次就少放一点盐。有人投诉我们产品的尺寸有点偏大,那我们就做小一点;下次人家又说尺寸小了,那我们就再改大一点。这样改来改去没定性,计算模拟发现它能把方差扩大一倍。
规则三 则是参照桌子上的靶心做反向补偿。小球往左偏了 2 厘米,那我下次就把漏斗放在距离靶心右边 2 厘米的地方。
如果说规则二是管理者认为自己的公司有问题,那规则三就是管理者认为自己的指挥有问题:我瞄得不够准!我们产品质量不行,看来是我管得不够严!竞争对手竟然降价,那我们要降得比他还多,我们跟他打价格战!结果就是运动式治理,今天一个口号明天一个大作战……系统被左右抽打,振荡越来越厉害,搞不好小球飞出桌面都有可能。
规则四 更有意思:上一颗小球落哪儿,下一次就把漏斗挪到哪儿。
你说哪有这样搞管理的?其实真有,这就是公司没有标准也不看市场反馈,活儿怎么干全靠找感觉。师傅带徒弟口耳相传,这一代自动把上一代当榜样……结果越走越偏,最后都不知道自己在干什么。
这个道理是不要对偏差做过度的反应。你可以先多测几次,感觉漏斗对得差不多准就可以了,一定程度的误差都是可以容忍的 —— 否则你的管理就是添麻烦,而且可能是大麻烦。
当时就有个现成的案例 [9]。福特公司出一款新车型,决定搞双源采购,让本土的福特工厂和日本的马自达工厂用同一套图纸,生产完全相同的自动变速箱。结果搭载福特变速箱的汽车,投诉率和保修索赔率非常高;而马自达工厂生产的变速箱运行得就非常平稳。这是为啥呢?
原来福特的质量管理思路更像漏斗实验里的规则二:只要尺寸稍微偏离目标,哪怕还在规定公差范围内,也赶紧调机床。而马自达更像规则一:尽量先把机床调好,此后只要过程稳定,就不追着每个点乱调。
正如戴明所料,福特的公差比马自达大很多。过于勤勉的纠偏等于是给系统注入额外波动。
眼里不揉沙子见到毛病就改,可不是好管理. 往往什么都不做比大惊小怪好得多。
✵

人有多容易被回归均值迷惑呢?我调研中有个震惊的发现。著名的「邓宁—克鲁格效应(Dunning–Kruger Effect)」,在相当程度上,其实是回归均值导致的。
我们《精英日课》专栏以前专门讲过邓宁—克鲁格效应 [10]。它的意思是:越是愚蠢的人越容易高估自己;而聪明人都比较谦虚,倾向于低估自己。这个规律听着挺直构,但是 2020 年以来,学术界提出了很多质疑 [11]。
我们抛开技术细节简单说。研究人员判断一个受试者是聪明还是愚蠢,是通过在实验室里让他做一套测试题。既然是做题,就有人发挥好,有人发挥不好 —— 特别高和特别低的分都有运气成分。
可是当你让人做自我评价的时候,受试者的说法肯定会接近自己平时的均值。这个均值对发挥不好的人来说,肯定比他现场的表现要高;而对发挥好的人来说,则比他现场分数要低。对吧?
于是在你看来,就是低分的人高估了自己,高分的人低估了自己!殊不知这只是个统计效应.
也有人认为不完全是统计效应,说邓宁—克鲁格效应还是真实存在的,只是没有此前估计的那么严重而已 [12]……但我想说的要点是,想要从观测中获得一点真知,是非常困难的。学术界严谨到这个程度,还不敢说有定论。
那你说,连做学术研究的都这么难以判断真相,我又如何知道眼前这个事儿是真的趋势变了,还只是一个随机的波动呢?
这可是统计学最根本的问题。除了看更多、更全面的数据,没有简单办法。就回归均值而言,你至少应该问自己四个问题:
我是不是因为一个极端值才开始注意这件事?
我看到的是一个点,还是多期数据?
如果我什么都不做,它会不会自己缓回来一点?
系统的生成机制有没有真的改变?
最稳妥的办法是使用贝叶斯公式,每次稍稍更新一下自己的先验。
✵
这一讲最重要的教训是决策定力。
孩子闯了个祸,你没必要发火,他自己也很难受;员工搞砸一项任务,你不用找他谈话更不用整改,他下次不至于如此;学生这次考试倒数第一,你先别忙上价值……同样的,老板偶尔办对了一件大事,你们也不用着急把他往天上捧。
飘风不终朝骤雨不终日,极端不是常态,有见识的人不会事事都管。
听风就是雨,今天跌 2% 你就觉得末日降临,明天涨 1% 你就以为牛市开启,看见不寻常就坐不住,一激动就重奖重罚,这种戏多的决策者能把系统折腾死。
有道是 ——
一时高,不必封神; 一时低,不必诛心。 峰谷本是寻常事, 涨落无非一阵云。 识得均值回归路, 方知遇事缓三分。 临变何须多惊怪, 大度能容是大人。
注释
[1] Kahneman, Daniel. Thinking, Fast and Slow. New York: Farrar, Straus and Giroux, 2011.
[2] Zoder-Martell, Kimberly A., Margaret T. Floress, Ronan S. Bernas, Brad A. Dufrene, and Samantha L. Foulks. 2019. “Training Teachers to Increase Behavior-Specific Praise: A Meta-Analysis.” Journal of Applied School Psychology 35 (4): 309–338.
[3] Galton, Francis. “Regression towards Mediocrity in Hereditary Stature.” Journal of the Anthropological Institute of Great Britain and Ireland 15 (1886): 246–263. 另见《精英日课》第二季,总有一种力量让我们回归平均。
[4] Kahneman, Daniel, and Amos Tversky. “On the Psychology of Prediction.” Psychological Review 80, no. 4 (1973): 237–251.
[5] Malmendier, Ulrike, and Geoffrey Tate. 2009. “Superstar CEOs.” The Quarterly Journal of Economics 124 (4): 1593–1638.
[6] Morton, Veronica, and David J. Torgerson. “Effect of Regression to the Mean on Decision Making in Health Care.” BMJ 326, no. 7398 (2003): 1083–1084.
[7] Smith, Gary, and Joanna Smith. “Regression to the Mean in Average Test Scores.” Educational Assessment 10, no. 4 (2005): 377–399.
[8] Deming, W. Edwards. Out of the Crisis. Cambridge, MA: MIT Press, 1986.
[9] Bellows, Bill. 2016. “Specification-based Management Is Not Sufficient.” The W. Edwards Deming Institute.
[10] 《精英日课》第三季,进步使人虚心,落后使人骄傲
[11] Gignac, Gilles E., and Marcin Zajenkowski. “The Dunning-Kruger Effect Is (Mostly) a Statistical Artefact: Valid Approaches to Testing the Hypothesis with Individual Differences Data.” Intelligence 80 (2020): 101449; Magnus, Jan R., and Anatoly A. Peresetsky. “A Statistical Explanation of the Dunning-Kruger Effect.” Frontiers in Psychology 13 (2022): 840180.
[12] Jansen, Rachel A., Anna N. Rafferty, and Thomas L. Griffiths. “A Rational Model of the Dunning-Kruger Effect Supports Insensitivity to Evidence in Low Performers.” Nature Human Behaviour 5, no. 6 (2021): 756–763.