博弈论的几个经典模型关于博弈论的几个经典模型第1页,共31页,星期日,2025年,2月5日引言博弈论又被称为对策论(GameTheory),及研究互动决策的理论。互动决策:即各行动方(即局内人[player])的决策是相互影响的,每个人在决策的时候必须将他人的决策纳入自己的决策考虑之中,当然也需要把别人对于自己的考虑也要纳入考虑之中……在如此迭代考虑情形进行决策,选择最有利于自己的战略(strategy)。第2页,共31页,星期日,2025年,2月5日博弈:game,即是人们遵循一定规则下的活动,参与人的目的是“赢”。进行game的人是很认真的,不同于汉语中游戏的概念。博弈论/对策论:gametheory奥林匹克运动会:OlympicGames。引言第3页,共31页,星期日,2025年,2月5日博弈论研究的对象:是理性人或参与者如何选择策略或如何作出行动的决定。理性不一定道德。基本术语第4页,共31页,星期日,2025年,2月5日猪圈里有两只猪,一只比较大,一只比较小。猪圈狭长,猪食槽在一头,猪食按钮在另一头,按一下会有10个单位的猪食落进槽里。由于按钮和食槽距离较远,按按钮的体力耗费相当于2个单位的食物。若大猪先到槽边,大小猪吃到食物的收益比是9:1;同时到槽边,收益比是7:3;小猪先到槽边,收益比是6:4。模型一、智猪博弈/完全信息静态博弈小猪大猪按不按(等待)按(5,1)(4,4)不按(等待)(9,-1)(0,0)第5页,共31页,星期日,2025年,2月5日选择等待是小猪的占优策略。大猪的最佳选择取决于小猪的行动,如果小猪去按,大猪最好选择等待;如果小猪不去按,则最佳选择是大猪亲自去按。也就是说,在智猪博弈中,大猪没有占优策略,而小猪有占优策略,它的最佳选择就是耐心等待大猪去按钮,才能获得最佳结果。“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是:每次落下的事物数量和踏板与投食口之间的距离。模型一、智猪博弈/完全信息静态博弈第6页,共31页,星期日,2025年,2月5日如果改变一下核心指标,猪圈里还会出现同样的“小猪躺着大猪跑”的景象吗?试试看。改变方案一:减量方案。改变方案二:增量方案。改变方案三:减量加移位方案。投食仅原来的一半分量,但同时将投食口移到踏板附近。结果呢,小猪和大猪都在拼命地抢着踩踏板。等待者不得食,而多劳者多得。每次的收获刚好消费完。???对于游戏设计者,这是一个最好的方案。成本不高,但收获最大。模型一、智猪博弈/完全信息静态博弈第7页,共31页,星期日,2025年,2月5日有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果一个犯罪嫌疑人坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白,则两人各被判刑8年;如果另一个犯罪嫌人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。模型二、囚徒困境/非合作博弈第8页,共31页,星期日,2025年,2月5日不难看出,“坦白”是任一犯罪嫌疑人的占优战略,而(坦白,坦白)是一个占优战略均衡。模型二、囚徒困境/非合作博弈乙甲坦白抵赖坦白(-8,-8)(0,-10)抵赖(-10,0)(-1,-1)第9页,共31页,星期日,2025年,2月5日该博弈刻划了两大难题:冲突情形下,参与人的目标是什么?是采用(作为个人)他自己的最好策略,还是采用(作为集体的一员)他们共同的最好策略?前者导致均衡策略(坦白,坦白),支付为(-8,-8);后者的最好策略是(抵赖,抵赖),支付为(-1,-1)。这里反映了个体理性行为与集体理性行为之间的矛盾、冲突。此博弈只进行一次还是重复进行?如果博弈只进行一次,参与人似乎只有坦白才是最好的策略,因为没有理由相信对手会对你有信心,他总认为你自己会坦白;因此,双方都采取坦白策略。然而,若博弈进行多次,则结论将会发生变化。模型二、囚徒困境/非合作博弈第10页,共31页,星期日,2025年,2月5日什么是海萨尼转换?海萨尼提出了一种处理不完全信息博弈的方法,即引入一个虚拟的局中人——“自然”。自然首先行动,它决定每个局