博弈论究竟是什么

2021/09/10

算法

博弈论不是“三十六计”

计谋和战略

《三十六计》里的计谋，本质上都是骗术——自己要做A，就让对手以为自己要做B；不希望对手做C，就吸引对手去做D。

诡计的三个问题

诡计都有巨大的风险。要想诡计成功，不但必须严密封锁信息，而且得假设对手是比较愚蠢的。
不能长期使用。
它们都是“零和游戏”

什么是理性

博弈论假设人是理性的，表现为三个要求：

你得知道你想要什么，并且对你想要的东西有一个明确的排序。
你的行动是在一定的规则之下，争取到你想要的东西。
你知道对手也是这么想的，而且对手也知道这些规则。

如果一个现象长期存在，那就有可能是博弈论的研究内容——博弈论称之为“均衡”。

博弈论的用处

博弈论能帮助我们理解长期存在的各种现象。如果你观察到社会上很多不合理的现象，而这些现象还长期存在，博弈论就会帮助你考察现象背后的博弈规则。

博弈论更重要的作用，是告诉我们如何改变不好的局面。

对个人来说，最基本的一点是你应该时刻提醒自己要理性。研究博弈论就像下棋，你要考虑自己的每个行动都是有后果的，要事先想好对方会有什么反应，然后你再怎么应对，然后对方再反应······一直到最后会是什么结果。

更深层的意识是，你应该先做一个“player”，有一点参与游戏的精神，你就有权在规则范围内采取对自己最有利的行动。你就是积极主动的，你就会平等对待对手——你就既不是一个浑浑噩噩整天根据别人设定做事的人，也不会有整个世界绕着自己转的错觉。

群鸦的盛宴

博弈论的三个基本概念：“帕累托最优”（Pareto Optimality）、“压倒性策略”（Dominant Strategy）和“纳什均衡”（Nash Equilibrium）。

为什么商家总扎堆

博弈论要求你必须考虑竞争对手会怎么做。

帕累托是一位意大利经济学家，帕累托改进的意思是这个改进能在不伤害任何一个人利益的同时，使至少一个人的境遇变得更好。如果一个局面已经好到没有帕累托改进的余地了，这个局面就叫帕累托最优。

只有稳定的局面才能长久存在。

囚徒困境

博弈论要求我们每次做判断都要考虑对方——不是考虑怎么对对方好，而是考虑对方会怎么做，然后你应该怎么应对。

压倒性策略，这个策略压倒其他一切策略，不管对手怎么做，这个策略对你来说都是最好的。

作为一个理性的人，如果博弈中有压倒性策略，就一定要选它。任何情况下都不要选择被压倒性策略。

纳什均衡：在这个策略组合里，没有任何一方愿意单方面改变自己的策略。

如果一个现象能够在社会中长期稳定地存在，它对参与的各方来说就一定是个纳什均衡。纳什均衡告诉我们评价一个局面不能只看它是不是对整体最好，它必须得让每个参与者都不愿意单方面改变才行。

理想青年喜欢帕累托最优，理性青年寻找纳什均衡。

秦朝人的游戏

理想青年一边赞美百家争鸣一边感叹背叛和杀戮，而理性的你知道此局无关文明和民主，只是一场权力的游戏。

以和为贵

博弈论研究的一般都是“非合作博弈”，参与者并不是心往一处想劲往一处使齐心合力办大事，每个人想的都是怎么让自己赢。博弈论的出发点虽然是非合作的，结果却可以达成合作。

博弈论研究的合作可不是要进行“思想道德教育”，去劝人行善，也不是让一个强权去管制人民，而是寻求能让人自愿合作的机制。

好的合作，一定是个纳什均衡。

聚焦点

聚焦点就是在众多可能的纳什均衡中最显眼的那一个，人们会自动在这一点上达成合作。聚焦点的作用是协调。

生活中的聚焦点

有些聚焦点是设计出来的。比如科技产品的“标准”这一聚焦点，就是设计出来的。对所有参与者最有利的局面，就是有标准。这个标准具体是什么其实并不那么重要，重要的是必须得有标准。

有些聚焦点属于历史路径依赖。比如度量衡，历史上用公制现在就用公制，历史上用英制现在就用英制，很难说哪个系统更科学。

有了聚焦点思维，我们就应该在没有聚焦点的时候主动提出一个聚焦点，促成合作。

聚焦点的最大价值就是它的存在本身。

聚焦点能发挥这么大的作用，还得有一个关键的前提，那就是各方没有根本的利益冲突。我们都希望能促成这次合作，我们需要解决的只是在哪里合作的问题。

谈判中的聚焦点

想要合作的人们需要聚焦点，只要你能找到借口，任何借口都可以是聚焦点。借口可以发挥很大作用的根本原因是大家本来就想促成这次合作。

事实上，即便上有一定的利益冲突，只要合作的愿望大于冲突，我们还是可以使用聚焦点。

实在不行······就抽签吧

如果各方都有强烈地合作愿望，而博弈存在多个纳什均衡，我们要做的就是找到聚焦点。聚焦点可以是生活习惯，可以是历史传承，可以是先下手为强，可以是政府指导，也可以是随便找到的什么借口，实在不行还可以抽签。

聚焦点和锚定效应有什么区别

聚焦点是双方越熟悉套路越容易达成合作。锚定效应是对方越不熟悉业务越可能有效。

不纵容，但要宽容

要想防止背叛，最直接的方法就是把单次博弈变成重复博弈。重复博弈之所以有效，是因为背叛者会受到惩罚，最直接的惩罚就是下次我也背叛你，让你得不到合作的好处。

美国往事

一群人要想合作，至少要满足以下两个条件中的一个

合作对自己有好处，人们本来就想合作。
不合作会受到惩罚。

有效的惩罚需要满足的条件

能发现背叛行为；
惩罚必须是可信的，对方知道一旦背叛就一定会受到惩罚；
惩罚的力度是足够的。

稳定和脆弱

利益和惩罚只是用作约束的硬条件。如果内部没有起码的信任，合作就是脆弱的。

很多帕累托最优的局面是不稳定的，所以不可能长久存在。纳什均衡之所以如此重要，就是因为它是一个稳定的局面。

以牙还牙真的好吗？

囚徒困境下收益最大的策略是以牙还牙的策略。

以牙还牙策略（Tit for Tat）

不管跟谁博弈，第一轮我都选择合作。
第一轮过后，我就复制对手上一轮的做法。

仔细分析一下以牙还牙的策略，有意思的一点在于它和任何一个对手博弈的时候，最多情况下是打成平手的，只会让从始至终选择背叛的对手比它多占一轮的便宜。可就是这样，最后算总账的时候，它的收益会超过其他人——因为它既不当冤大头，也不作死。

以牙还牙其实是一个脆弱的策略。这个策略对错误很不友好。

在真实世界中，以牙还牙并不是最好的策略，它还不够宽容。博弈论专家提出过一个改进版的以牙还牙：对方背叛我一次，我继续合作；对方连续背叛我两次，我再报复。研究表明，在有可能出错的博弈中，这个办法的效果比以牙还牙更好。

真实生活中别人可能犯无心的错，你也可能误判。中国人有句话叫“退一步海阔天空”，强人通常不喜欢这句话，但是其实这句话很有道理——宽容能避免脆弱。不过请注意，这句话的关键是“一步”。退一步是宽容，退两步就是纵容了。

算法博弈论