2025年策略树与逆向推理策略.docx

基本信息

文件名称：2025年策略树与逆向推理策略.docx

文件大小：36.64 KB

总页数：22 页

更新时间：2025-05-20

总字数：约1.48万字

文档摘要

动态博弈与逆向归纳法

假如欺负她人可以获得快乐,那你会欺负她人吗？大多数人回答是不会，原因正如她们所指出，欺负她人会紧张她人报复,这抵消了从欺负她人行为中所能得到快乐。这个答案至少表明，你之因此目前没有欺负她人,并不由于不想欺负她人,而是由于你懂得欺负她人会在未来给自己导致麻烦。同样，当咱们面临某些博弈对局时候,咱们应怎样采用目前行动,常常取决于每个行动在未来会产生什么后果，或者说在未来他人将怎样反应。

在前面各章内容中，博弈是静态——或者说是同步行动。而现实中博弈常常是动态、依序行动,这就规定咱们必要考虑人们在未来对咱们行动反应。分析序贯行动博弈一种重要思绪就是:向前展望，向后推理(lookｉｎgｆorwardａndｒeasｏniｎgbａｃkwａrｄ)，即面向未来，思索目前，站在未来立场来确定目前最优行动。本章咱们将通过某些例子来阐明这一分析思绪，其中有些例子很有趣,也很有挑战性。

§5-1逆向归纳法

1、美中军事政治博弈

咱们通过一种简朴例子来阐明序贯博弈（离散方略）扩展式体现和逆向归纳法求解措施。这个例子可以称做美中军事政治博弈,或者叫“毛泽东对外军事政治战略”。

故事模型

在国内解放初期,美国一直试图对国内实行打击。此时,国内必要对美国采用应对之策。就国内对美国可以采用行动而言，无非是回击或不回击。用更符合毛泽东话来说，美国可以“犯我”或“不犯我”，而咱们可以“犯人”或“不犯人”。

由此咱们可以刻画出一种动态博弈：

●博弈方：美国、中华人民共和国;

●行动空间:美国可选用行动是“犯我”或“不犯我”;中华人民共和国选用是“犯人”或“不犯人”;

●行动次序:美国先行动；中华人民共和国观测到美国行动后再选用自己行动；

●获利：咱们这样假设获利状况（数字是虚拟)；

●假如美国“犯我”，中华人民共和国“犯人”,恶战再所难免，则美国亏损2,中华人民共和国亏损2；

●假如美国“犯我”，中华人民共和国“不犯人”,那么中华人民共和国沦为美国附庸，丧失国家主权，则美国获得2,中华人民共和国亏损4;

●假如美国“不犯我”，中华人民共和国“犯人”，那么就是中华人民共和国挑起战事，美国恰好有借口纠合国际力量打击中华人民共和国，则美国得３，中华人民共和国亏损５;

●假如美国“不犯我”，中华人民共和国“不犯人”,各自和平地发展经济，则美国得１，中华人民共和国得1。

2、博弈树

对于上述动态博弈,咱们可以用博弈树(gametree)体现如下（图5－1）:

美国

犯我不犯我

?中华人民共和国中华人民共和国

犯人不犯人犯人不犯人

（－2,－2)(２,－4)(3,-5）（1,１)

图5－1美中军事政治博弈

图5－１博弈树是这样解读：美国先选用“犯我”或“不犯我”，然后中华人民共和国观测美国选用后选用“犯人”或“不犯人”；最右边括号内数字是多种状况下双方获利状况，前一种数字代表第一种行感人（美国)获利,第二个数字代表第二个行感人(中华人民共和国)获利。依此类推，假如有更多参与人序贯行动,则获利排列次序与行动次序一致。

３、逆向归纳法

究竟什么是图5－１博弈均衡呢?在完美信息动态博弈中,咱们要找均衡实际上是一条途径，即从第一种行感人决策结点出发，一直到某一种终点之间途径。所谓均衡途径就是在每一种决策阶段，没有人会偏离这条途径。这条途径所代表方略均衡被称做子博弈完美均衡。

下面咱们简介怎样用逆向归纳法来求解博弈均衡。逆向归纳环节是这样：

首先,从最终阶段行动参与人决策开始考虑。在图５-１博弈中，最终行动是中华人民共和国,因而咱们先考虑中华人民共和国怎么决策。在考虑中华人民共和国决策时,咱们假定美国已经选了“犯我”或“不犯我”；

假如美国选用了“犯我”，在图5-１中可发现，中华人民共和国选用“犯人”会得到-2，选用“不犯人”会得到－４;因而中华人民共和国必然选用“犯人”——咱们就在中华人民共和国“犯人”分枝上画上一种短短横线标识;

假如美国选用了“不犯我”，从图5-1中可发现，中华人民共和国选用“犯人”会得到-5，选用“不犯人”会得到1，因而中华人民共和国必然选用“不犯人”——咱们就在中华人民共和国“不犯人”分枝上画上一种短短横线标识。

然后,考虑次后阶段行感人(例子中只有两个阶段，因而实际上就是第一阶段行感人）——美国。美国决策时会考虑中华人民共和国反