乐观是减少遗憾最有效的措施

伯凡时间2019-10-17 11:14

本文转载自微信公众号：伯凡时间（ID：bofanstime），作者：伯凡时间

“吃什么呢?”已经成为了我们每天重复频率最高的发问，同时也是最让人纠结的事情之一。我们每时每刻都在各种待做出的决定之间游走，是选择进行一个新的尝试，还是继续选择我们现在就觉得不错的那个?That is the question。

生活的本质，就是在新鲜事物和传统事物之间、在最新的和最好的之间、在勇于冒险和安于现状之间寻求平衡。

计算机科学用“explore”(探索)和“exploit”(利用)两个单词来代表我们日常面临的两种选择。过度倾向于“exploit”，就会只关注既有利益，而忽略其他潜在选择的价值。过度倾向于“explore”，则会只注重探索潜在价值，从而忽略享用既有利益。最佳策略应该是兼顾既有利益的享用和潜在价值的探索。

每一次选择，都是一次权衡。我们的目标是要在多次选择后，实现利益最大化和遗憾最小化。

在《算法之美》一书中，作者将遗憾定义为：将我们的实际行为与事后认定的最佳行为进行比较后得到的产物。

最好的状态，无疑是实际行为就是最佳行为，这样的话，遗憾值就是零了。但生活经验告诉我们，这种好事可遇不可求，几率低到可以忽略不计。因为一个行为在兑现之前，我们无法知道这是不是最佳行为，只有兑现以后才能评判。因此，将每次行为都变成最佳行为是不可能的，我们只能尽可能从整体上减少遗憾值。

为了尝试解决这一问题，数学家们提出了名为“多臂老虎机”的场景：

一个玩家面对一台有多个摇臂的老虎机，各个摇臂的外表都一样。每投一个币，就能得到一次扳动摇臂的机会。每次扳动摇臂，可能获得硬币，也可能什么都不发生，每个摇臂吐硬币的概率不同，玩家事先无法知道哪个摇臂爱吐钱，哪个摇臂只进不出。怎么做才能让玩家在累积n次扳动摇臂后的收益最大?

美国数理统计学家赫伯特·罗宾斯(Herbert Ellis Robbins)通过多年探索，于1985年提出了多臂老虎机问题中与遗憾有关的几个结论：

1、如果你不是全知全能，那么让你感到遗憾的事情会不断增加，永远无法停止;

2、如果你选择的是最有效的策略，那么遗憾增加的速度会比选择其他策略的速度慢一点，随着你对问题的了解程度不断加深，做出明智选择的能力也会不断加强;

3、要想保持遗憾最少，就要使得每次扳动老虎机摇臂产生遗憾的数量以对数速率增加。

按照罗宾斯的结论，作为人类的我们，谁也不是全知全能的，所以遗憾只会增加是我们必须面对的宿命。在此前提下，我们能做的就是尽可能控制遗憾增加的速率，并且通过尽可能多的尝试发现有效策略。

遗憾数量以对数速率增加，意味着玩家前10次扳动老虎机摇臂产生的遗憾与后面90次扳动摇臂所造成的遗憾一样多。对应到人生选择上，就是一个人前10年犯下的错误要等于后90年犯错的总和。如何才能实现这一目标呢?

罗宾斯之后，后继者在他的结论基础上努力寻找一种能够确保遗憾最少化的算法，在众多算法中，目前最受欢迎的算法是上限置信区间算法(UCB算法)。“置信区间”是统计学概念，表示一个误差范围。

在多臂老虎机问题中，我们假设这台老虎机有5个摇臂。如下图所示，纵轴代表老虎机可能带来的收益，灰色方框代表每个摇臂的置信区间，即我们认为这个摇臂就是最佳策略的可能性(我们对该摇臂的信任程度)。红色虚线代表我们预估的每个摇臂的平均收益，而彩色实线分别代表每个摇臂的真实平均收益。

扳动摇臂之前的初始状态

(图片引自www.leafw.cn)

由于一开始我们对5个摇臂都不了解，所以对它们可能是最佳策略的信任度是一样的，因此5个灰色方框大小相同，方框的上边界相对于纵轴的位置就是置信区间的上限(初始时处于齐平状态)。同时，我们预估每个摇臂的平均收益是相同的，所以五条红色虚线一开始处于同一位置。

图中可以看出，D5的平均值最高，如果事先知道的话，我们只要不断摇动D5摇臂就可以了。但前提是我们不知道(就像我们不知道哪种生活、哪份工作对自己而言才是最好的)，因此我们就要不断去尝试每个摇臂，估算出每个摇臂的平均值，通过对比找到平均值最高的那一个。

我们每扳动一次摇臂，这个摇臂的置信区间就会缩小(灰色方框变小)，因为随着扳动次数增加，我们会更加确信其是不是最佳策略，它的误差范围会不断缩小。同时，根据其吐币的数量，其置信区间的上限位置会上下浮动(方框位置会上下浮动)，吐币多就上浮，吐币少或不吐币就下降，与此同时，红色虚线也会上下浮动，逐渐逼近彩色实线。

按照统计学理论，样本量越大，得到的均值就越趋近于真实值。也即每个摇臂被扳动的次数越多，我们就会对其越了解。

在n次摇动后，只有两类摇臂的置信区间上限偏高，一类是摇动次数偏少的(置信区间还很宽，所以上限偏高)，一类是实际收益偏大的(由于获得收益的概率大，所以灰色方框会上移)。

UCB算法就是每次选择扳动那个置信区间上限最高的摇臂，一旦其置信区间下移，就换下一个最高的……这样，就能够在概率层面平衡探索(explore)和享用(exploit)，既能够探索足够多的潜在价值，又能够及时享用既有利益。

多轮扳动摇臂后，可能出现的场景

(图片引自www.leafw.cn)

亚马逊创始人杰夫·贝佐斯(Jeff Bezos)在创办亚马逊之前，提出过一个“遗憾最少化框架”。他的方法是想象自己活到了80岁，站在80岁的时间节点来回顾当下，思考如何做才能把自己感到遗憾的事情降到最低。

利用这个“框架”，他做出了一个足以改变自己和全世界的决定。

创办亚马逊之前，贝佐斯在纽约肖氏集团做投资合伙人，拥有不菲的待遇，生活安定，一切都在按部就班地进行着。这时候，一个新奇的选择突然浮现在他脑中：辞职，去西雅图创办一家网上书店。

很多人都劝贝佐斯慎重考虑，因为相比于当时他既有的一切，一个虚无缥缈的创业梦想不确定性实在有些过高。

贝佐斯基于自己的“遗憾最少化框架”来回应质疑：“我知道在我80岁时，我不会因这次尝试而后悔，我不会后悔参与到互联网这项我认为非常重要的事业中来。我知道，哪怕我失败了，我也不会遗憾，而我可能会因为没有尝试而感到遗憾，而且这种遗憾之情将永远萦绕在我的心头。想到这里，这个决定就变得非常容易了。”

这个故事的后半部分早已家喻户晓，贝佐斯这一席饱含激情与梦想的话语也足以激发人们肾上腺素的分泌。如果回归理性，我们会发现他的这一抉择暗中也贴合了UCB算法。

在创办亚马逊之前，贝佐斯先在华尔街的计算机领域工作，而后又在一家国际贸易公司建造网络系统，之后又去一家银行担任副总裁，后来跳槽到肖氏集团，而后才创办亚马逊。亚马逊的创业历程也从不安分，从一开始做网上书店，到后边做B2C电子商务，一直到现在的云业务。

不难看出，贝佐斯始终保持着对新鲜事物的探索与尝试，促使他做出这些选择的原因，是对不确定性的乐观态度。而UCB算法的原理就是乐观面对不确定性，通过对不确定选项的大胆尝试，在激进的探索(explore)和保守的享用(exploit)之间寻求平衡。

面对类似贝佐斯的选择情景，要做出同他一样的决定并不容易，绝大多数人可能都会做出相反的决定。因为大部分人都是怀疑主义者，他们只相信自己能够看到的东西，对于可能性他们始终持怀疑态度。

通过UCB算法和贝佐斯的个人经历，我们不难看出怀疑主义是一种苟且策略，他们放弃了太多的可能性。对于每个人(尤其是年轻人)而言，生活就是一台拥有诸多摇臂的老虎机，在经历足够多的尝试之前，永远不要轻易断定某个摇臂就代表了最佳策略。

我们应该尽可能多地尝鲜，满怀激情地结识新朋友、体验新事物，对不确定性持一种乐观态度，因为科学告诉我们，从长远来看，乐观主义是减少遗憾最有效的措施。

广告、内容合作请点这里：寻求合作

咨询·服务

研究报告
产业规划
园区规划
产业招商
项目可研
市场调研
投资选址
IPO咨询

乐观是减少遗憾最有效的措施

相关阅读