博弈论-囚徒困境与重复囚徒困境的启示【转】

只看该作者 · 发表于 2016-2-18 05:17:47

                                             博弈论-囚徒困境与重复囚徒困境的启示
“囚徒困境”
囚徒困境（prisoner’s dilemma）：讨论的是两个被捕的囚徒之间的一种博弈，它阐明了为什么“在合作对双方都有利时，保持合作也是困难的”。
囚徒困境的故事讲的是，两个嫌疑犯作案后被警察抓住，分别关在不同的屋子里接受审讯。警察知道两人有罪，但缺乏足够的证据。警察告诉每个人：如果两人都抵赖，各判刑一年；如果两人都坦白，各判八年；如果两人中一个坦白而另一个抵赖，坦白的放出去，抵赖的判十年。于是，每个囚徒都面临两种选择：坦白或抵赖。
      B-坦白       B-抵赖
A-坦白 8，8       0，10
A-抵赖 10，0       1，1
然而，不管同伙选择什么，每个囚徒的最优选择是坦白：如果同伙抵赖、自己坦白的话放出去，不坦白的话判一年，坦白比不坦白好；如果同伙坦白、自己坦白的话判八年，不坦白的话判十年，坦白还是比不坦白好。最终的结果，两个嫌疑犯都选择坦白，各判刑八年。
在囚徒困境中，如果两人选择合作，即两人都抵赖，各判一年，显然是最好的结果。但由于大家都优先考虑自己的最优选择，导致了最终整体选择并不是最好的。
囚徒困境所反映出的深刻问题是，个人利益的最大化并不能保证集体利益的最大化，自以为聪明的人可能会作茧自缚。
“重复囚徒困境”与“艾克斯罗德博弈论实验”
囚徒困境是一个一次性的博弈实验，如果增加博弈的次数，让每个参与者都有机会去“惩罚”对方前一个回合的行为，此时每个参与者的决策可能会发生变化。其中最有名的实验莫过于艾克斯罗德的博弈实验。
艾克斯罗德组织了一场计算机竞赛：任何想参加这个计算机竞赛的人都扮演“囚徒困境”案例中一个囚犯的角色。他们把自己的策略编入计算机程序，然后随机的与其他人进行囚徒困境博弈，每次博弈完毕后会获得一定的分数，并且每个人在进行博弈前都能够清楚的知道对方的历史博弈情况，每个参赛选手都会进行200次博弈对决。
博弈分数的设计如下：
      对方-好意       对方-恶意
自己-好意 2，2       0，3
自己-恶意 3，0       1，1
初看会发现，如果这是一个一次性博弈，不管对方选择好意还是恶意，自己选择恶意都是最优的，都将赢得更高的分数。但如果每个人都这么想，每次博弈大家都只增加1分，每个人分数的增长都会非常的缓慢。实验的最终结果是怎么样的呢？采取什么策略会赢得最高的分数呢？
“艾克斯罗德博弈论实验”的结果
艾克斯罗德博弈论实验，计算机竞赛提交上来的程序包含了各种复杂的策略。让人感到吃惊的是，竞赛的桂冠属于其中最简单的策略：一报还一报（TIT FOR TAT）。这是多伦多大学心理学家阿纳托拉帕波特提交上来的策略。
一报还一报的策略是这样的：
1）它总是以合作开局
2）但从此以后就采取以其人之道还治其人之身的策略
这个策略永远不先背叛对方，从这个意义上来说它是“善意的”。它会在下一轮中对对手的前一次合作给予回报（哪怕以前这个对手曾经背叛过它），从这个意义上来说它是“宽容的”。但它会采取背叛的行动来惩罚对手前一次的背叛，从这个意义上来说它又是“强硬的”。而且，它的策略极为简单，对手程序一望便知其用意何在，从这个意义来说它又是“简单的”。
为了证明一报还一报策略的胜利不只是一种侥幸，艾克斯罗德又举行了多场竞赛，并邀请了更多的人，但这个策略一次又一次的夺魁，竞赛的结论无可争议。
重复囚徒困境结论
人的一生中会有非常多次的选择，有时候吃亏，有时候占了便宜。善意的决策可能吃亏，又或者恶意的背叛可能占便宜，但所有的过往，都会成为别人今后和你合作时进行决策的依据。
好人，更确切地说，具备以下特点的人，将会成为最终的赢家：
1）善意的：ta不会首先背叛别人
2）宽容的：别人曾经背叛过ta，但前一次合作是善意的，ta会原谅别人
3）强硬的：前一次合作背叛了ta，ta下一次合作会进行惩罚
4）简单纯粹的：简单纯粹的原则让彼此都更加轻松