动态博弈与逆向归纳法
假如欺负她人可以获得快乐,那你会欺负她人吗?大多数人回答是不会,原因正如她们所指出,欺负她人会紧张她人报复,这抵消了从欺负她人行为中所能得到快乐。这个答案至少表明,你之因此目前没有欺负她人,并不由于不想欺负她人,而是由于你懂得欺负她人会在未来给自己导致麻烦。同样,当咱们面临某些博弈对局时候,咱们应怎样采用目前行动,常常取决于每个行动在未来会产生什么后果,或者说在未来他人将怎样反应。
在前面各章内容中,博弈是静态——或者说是同步行动。而现实中博弈常常是动态、依序行动,这就规定咱们必要考虑人们在未来对咱们行动反应。分析序贯行动博弈一种重要思绪就是:向前展望,向后推理(lookingforwardandreasoningbackward),即面向未来,思索目前,站在未来立场来确定目前最优行动。本章咱们将通过某些例子来阐明这一分析思绪,其中有些例子很有趣,也很有挑战性。
§5-1逆向归纳法
1、美中军事政治博弈
咱们通过一种简朴例子来阐明序贯博弈(离散方略)扩展式体现和逆向归纳法求解措施。这个例子可以称做美中军事政治博弈,或者叫“毛泽东对外军事政治战略”。
故事模型
在国内解放初期,美国一直试图对国内实行打击。此时,国内必要对美国采用应对之策。就国内对美国可以采用行动而言,无非是回击或不回击。用更符合毛泽东话来说,美国可以“犯我”或“不犯我”,而咱们可以“犯人”或“不犯人”。
由此咱们可以刻画出一种动态博弈:
●博弈方:美国、中华人民共和国;
●行动空间:美国可选用行动是“犯我”或“不犯我”;中华人民共和国选用是“犯人”或“不犯人”;
●行动次序:美国先行动;中华人民共和国观测到美国行动后再选用自己行动;
●获利:咱们这样假设获利状况(数字是虚拟);
●假如美国“犯我”,中华人民共和国“犯人”,恶战再所难免,则美国亏损2,中华人民共和国亏损2;
●假如美国“犯我”,中华人民共和国“不犯人”,那么中华人民共和国沦为美国附庸,丧失国家主权,则美国获得2,中华人民共和国亏损4;
●假如美国“不犯我”,中华人民共和国“犯人”,那么就是中华人民共和国挑起战事,美国恰好有借口纠合国际力量打击中华人民共和国,则美国得3,中华人民共和国亏损5;
●假如美国“不犯我”,中华人民共和国“不犯人”,各自和平地发展经济,则美国得1,中华人民共和国得1。
2、博弈树
对于上述动态博弈,咱们可以用博弈树(gametree)体现如下(图5-1):
美国
美国
犯我不犯我
?中华人民共和国中华人民共和国
犯人不犯人犯人不犯人
(-2,-2)(2,-4)(3,-5)(1,1)
图5-1美中军事政治博弈
图5-1博弈树是这样解读:美国先选用“犯我”或“不犯我”,然后中华人民共和国观测美国选用后选用“犯人”或“不犯人”;最右边括号内数字是多种状况下双方获利状况,前一种数字代表第一种行感人(美国)获利,第二个数字代表第二个行感人(中华人民共和国)获利。依此类推,假如有更多参与人序贯行动,则获利排列次序与行动次序一致。
3、逆向归纳法
究竟什么是图5-1博弈均衡呢?在完美信息动态博弈中,咱们要找均衡实际上是一条途径,即从第一种行感人决策结点出发,一直到某一种终点之间途径。所谓均衡途径就是在每一种决策阶段,没有人会偏离这条途径。这条途径所代表方略均衡被称做子博弈完美均衡。
下面咱们简介怎样用逆向归纳法来求解博弈均衡。逆向归纳环节是这样:
首先,从最终阶段行动参与人决策开始考虑。在图5-1博弈中,最终行动是中华人民共和国,因而咱们先考虑中华人民共和国怎么决策。在考虑中华人民共和国决策时,咱们假定美国已经选了“犯我”或“不犯我”;
假如美国选用了“犯我”,在图5-1中可发现,中华人民共和国选用“犯人”会得到-2,选用“不犯人”会得到-4;因而中华人民共和国必然选用“犯人”——咱们就在中华人民共和国“犯人”分枝上画上一种短短横线标识;
假如美国选用了“不犯我”,从图5-1中可发现,中华人民共和国选用“犯人”会得到-5,选用“不犯人”会得到1,因而中华人民共和国必然选用“不犯人”——咱们就在中华人民共和国“不犯人”分枝上画上一种短短横线标识。
然后,考虑次后阶段行感人(例子中只有两个阶段,因而实际上就是第一阶段行感人)——美国。美国决策时会考虑中华人民共和国反