博弈论之囚徒困境(博弈论囚徒的困境说明)
导语:博弈论入门——囚徒困境
概念引入
博弈论,又称为对策论(Game Theory)、赛局理论等,既是现代数学的一个新分支,也是运筹学的一个重要学科。
博弈的思想自古就有,下棋、战争的决胜负过程都可以包含博弈的过程,开始的博弈往往偏向于经验的总结,逐渐地才有了较为完整地理论体系。
人们对于在博弈中获得收益地渴求促进了博弈论的不断发展,先简单阐述几个基本的概念。
局中人(players)
01
在一场竞赛或博弈中,每一个有决策权的参与者成为一个局中人。
策略(strategies)
02
一个局中人的一个可行的自始至终全局筹划的一个行动方案,称为这个局中人的一个策略。
得失(payoffs)
03
一局博弈结局时的结果称为得失。
次序(orders)
04
各博弈方的决策有先后之分,产生次序。
均衡
05
对于整体而言,相关量处于稳定值。
今天让我们一起跟随耶鲁大学公开课来进行博弈论基本问题的简单探讨。
最先的引入便是我们较为熟悉的“囚徒理论”.警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果两个犯罪嫌疑人都坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪,各被判刑3年;如果只有一个犯罪嫌疑人坦白,另一个人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。下表给出了这个博弈的支付矩阵。
对于嫌疑人甲而言结果如下所示,括号中的+表示坦白,-表示隐瞒
两人通过分析可以得出相同的结论:如果选择坦白,无论对方怎么进行选择,对于自身而言都会获得相对最优的结果,所以选择坦白是相对优势策略。
但是通过表格我们可以看出,如果两个人同时选择隐瞒,会得到整体最优解。
那么现实生活中也会有类似的窘境,我们不知道对方会怎么想,也就无法做出最优势的策略,在这个过程中,如果有沟通的过程存在,又会是怎样的结果呢?
两人沟通之后发现如果都隐瞒,两人会得到更优势的结果,所以此处我们考虑到两人进行商议之后进行选择的情况,根据投票显示,依旧有很多人会选择坦白,因为这样就可以直接释放。
但如果在这个过程中再加入一些现实因素,比如提前释放后会出现出卖同伙的内疚感会使得最终的收益值降低,在牢狱中的时间会影响收入等等。得到的结论是当决策者在进行博弈的时候往往要考虑的因素很多,根据各个指标在心中的估量进行评判,得到的支付矩阵结果自然不同。
当不同决策者的支付矩阵的结果存在差异时,从其他决策者的角度进行考虑,可以进行进一步的博弈,但很大程度上,个人最优和集体最优往往是存在冲突的,有时候这或许可以称为道德的博弈,也难以摆脱利益博弈的根本。
关于博弈,还有哪些需要我们了解,如何将博弈理论实际运用到我们的生活中,是需要思考和实践的。我们后面还会接着聊,欢迎关注。
本文内容由小茜整理编辑!