混合策略

更新时间:2023-01-07 21:55

混合策略是参与对策的局中人以一定的概率值随机地选取的策略。它可以用向量形式进行表述。在矩阵对策中,它只有在没有鞍点的情况下才出现。因为在矩阵对策中没有鞍点时,参与对策的局中人无法有目的地选取对策来求得平衡局势,只有随机地从策略集合中选取策略。

应用

乒乓球运动员(博弈方)博弈过程中都存在各自的最优反应规则,并能够根据这一规则构建最优反映曲线,最终得出乒乓球战术行为混合策略纳什均衡

基础知识

策略:参与人在给定信息集的情况下选择行动的规则,它规定参与人在什么情况下选择什么行动,是参与人的“相机行动方案”。

纯策略:如果一个策略规定参与人在每一个给定的信息情况下只选择一种特定的行动,称为纯策略,简称“策略” ,即参与人在其策略空间中选取唯一确定的策略。

混合策略:如果一个策略规定参与人在给定的信息情况下以某种概率分布随机地选择不同的行动,称为混合策略。参与人采取的不是明确唯一的策略,而是其策略空间上的一种概率分布。

混合策略扩展博弈:博弈方在混合策略的策略空间(概率分布空间)的选择看作一个博弈,就是原博弈的“混合策略扩展博弈”。

纳什均衡:一般将严格占优策略均衡、重复剔除的占优策略均衡、纯策略纳什均衡和混合策略纳什均衡统称为纳什均衡。严格占优策略均衡是重复剔除的占优策略均衡的特例;重复剔除的占优策略均衡是纯策略纳什均衡的特例;纯策略纳什均衡是混合策略纳什均衡的特例。

混合策略纳什均衡(MNE):由最优的混合策略构成的混合策略组合。

区别

完全信息博弈中,如果在每个给定信息下,只能选择一种特定策略,这个策略为纯策略。如果在每个给定信息下只以某种概率选择不同策略,称为混合策略。

混合策略是纯策略在空间上的概率分布。纯策略可以理解为混合策略的特例,即在诸多策略中,选择该纯策略的概率为1,选其他纯策略的概率为0。纯策略的收益可以用效用表示,混合策略的收益只能以预期效用表示。

举例

两个参与人各拿一枚硬币,并选择出正面向上还是反面向上。若两枚硬币是一致的(即全部正面或全部反面),则参与人2赢走参与人1的硬币;若两枚硬币不一致(一正一反),参与人1赢得参与人2的硬币。支付如表1:

上述博弈的特征是:

相关计算

混合策略纳什均衡由最优的混合策略构成的混合策略组合。由于混合策略伴随的是支付的不确定性,因此参与人关心的是其期望效用。最优混合策略是指在给定对方的混合策略的情况下,使期望效用函数最大的混合策略。在两人博弈里,混合策略纳什均衡是两个参与人的最优混合策略的组合。

求解方法:

1.最大化收益法:即最大化各个参与人的效用函数

2.收益相等法:根据前面分析的猜硬币博弈中参与人的策略的思路,每个参与人的混合策略都使其余参与人的任何纯策略的期望收益相等,因此,解混合策略纳什均衡可以令参与人的各个纯策略收益相等,构成方程组求解。

3.最优反应函数法:在连续纯策略均衡时(如古诺模型),可以使用反应对应的概念来描述一个参与人对应于其他参与人混合策略的最优选择。

举例:社会福利博弈

上述模型有混合策略纳什均衡:参与人以一定的概率选择某种策略,然后计算相应于不同概率的期望效用。

设:政府救济的概率θ=1/2 ,不救济的概率1-θ=1/2。流浪汉寻找工作的期望效用:1/2×2+1/2 ×1=1.5;

流浪的期望效用: 1/2×3+1/2 ×0=1.5。此时,流浪汉选择任何混合策略的期望效用都是1.5,则流浪汉的任何一种策略(纯的γ=1或γ=0或混合的0<γ<1)都是政府所选择的混合策略的最优反应。

而当流浪汉游荡的概率为γ=0.2,寻找工作的概率为1-γ=0.8。救济:3×0.2-1×0.8=-0.2;不救济:-1×0.2+0×0.8=-0.2。

如果流浪汉选择这个混合策略,政府的任何策略(混合的或纯的)带给政府的期望效用为-0.2。特别的,以1/2的概率分别选择救济和不救济当然也是政府对于流浪汉所选择的混合策略的最优反应。这样可以得到一个混合策略组合,每一个参与人的混合策略都是给定对方混合策略是的最优选择,从而构成混合策略纳什均衡。

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}