GameTheroy
博弈论与极大极小定理 笔记
1. 课程概述
本课程探讨了博弈论在计算机科学中的应用,重点包括:
- 零和博弈与极小极大最优策略
- 随机算法与博弈论的联系
- 一般和博弈及纳什均衡
2. 博弈论基础
博弈的定义
- 玩家(Players):参与者
- 策略(Actions):玩家可以采取的决策
- 收益(Payoff):由玩家的联合决策决定
3. 经典零和博弈:射手-守门员博弈
设定
- 玩家:射手(Shooter) vs. 守门员(Goalie)
- 动作:左(L)或右(R)
- 规则:
- 若射手和守门员选择相同方向,守门员成功扑救
- 否则,射手得分
收益矩阵
- 守门员扑救:(+1, -1)
- 射手进球:(-1, +1)
- 这是一个零和博弈,满足 r+c=0
行矩阵/列矩阵
4. 纯策略 vs. 混合策略
- 纯策略:玩家每次都选择固定动作
- 混合策略:玩家按一定概率分配动作选择
收益计算
- 若两个玩家独立随机选择策略,预期收益计算为:
$$
E[payoff]=∑piqjR(i,j)E[\text{payoff}] = \sum p_i q_j R(i,j)
$$
其中 p,q 分别是行玩家和列玩家的混合策略概率分布。
那么如何计算混合策略的收益矩阵呢?答案是期望收益。
5. 极小极大最优策略
p*矩阵:指行玩家在考虑列玩家的所有行动下时,q在使p最小时能够获得的最大收益。
所谓的lower bound,下界,就是在这里的定义的。
同样也存在q*矩阵。那么接下来引入关键公式:
upper bound 上界可以从列玩家的角度考虑,即在考虑p的所有策略的最大值之后仍然使得其收益最小的值。一般来说,ub >= lb.
6. 博弈论在随机算法中的应用
寻找最优策略时可以视为纯策略:
计算举例:
修改后,守门员在左侧的能力变弱,即射手选择左侧射门时的成功率提高(从 -1 变成 -1/2)。由于守门员在左侧的防守变差,射手的最优策略偏向左侧,最优概率调整为 p=4/7p = 4/7p=4/7(即 57.14% 选择左,42.86% 选择右)。
这一变化提升了射手的预期收益,并且使得博弈的值(value of the game)从 0 变为 1/7,即射手在长期博弈中比之前更占优势。
在 minimax 策略中,行玩家的目标是最大化自己最坏情况下的收益:
$$
\max_p min(1−2p,2−4p)
$$(1) 画图分析
右侧的图显示了两个期望收益的变化:
- 1−2p 是一条斜率为 -2 的下降直线。
- 2−4p是一条斜率为 -4 的下降直线。
要最大化最小收益,我们要寻找这两条曲线的交点,即:
1−2p=2−4p
解得:p=1/2
但这并不意味着 p=1/2 是最优策略,我们还要检查端点的收益。
(2) 端点分析
- 当 p=0 时:
- 1−2(0)=1
- 2−4(0)==2
- 最小值是 1。
- 当 p=1 时:
- 1−2(1)=−1
- 2−4(1)=−2
- 最小值是 -2。
行玩家希望 最大化最小收益,所以选择最大值的最小值:=1
因此,最优策略是 p=0,即行玩家始终选择第二行。
解释直觉
- Minimax 原则:行玩家要确保即使在最坏的情况下,自己的收益也是最大的。
- 选择 p=0 时,列玩家无论怎么选,行玩家至少能得到 1,这是最优选择。
- **如果选择 p=1,列玩家就可以让行玩家的收益变成 -2,这是更差的情况。
最终,行玩家的 minimax 策略是选择 p=0,而列玩家的最优策略是始终选择第一列,游戏值为 1。
冯诺依曼极小极大定理:
“The Value of the Game” 的意义
**游戏值(value of the game)**表示在双方都采用最优策略时,**行玩家(row player,通常是进攻方)在长期博弈中的期望收益**。在**零和博弈(zero-sum game)**中,这个值直接反映了**一方的收益与另一方的损失**。
如果游戏值变大:
- 对行玩家(射手)有利,意味着射手可以在最优策略下获得更高的收益。
- 对列玩家(守门员)不利,表示守门员即使采取最优策略,也会在长期博弈中让射手进更多球(或者失去更多收益)。
- 可能的原因:
- 进攻方的策略或能力变强(例如射手命中率提高)。
- 防守方的能力变弱(例如守门员左侧防守变差)。
示例: 在对称博弈(第一种情况),游戏值是 0,意味着双方实力相当,没有人占据优势。
在非对称博弈(第二种情况),游戏值变成 1/7,说明射手在长期博弈中比守门员有 1/7 的优势。
7. 一般和博弈与纳什均衡
一般和博弈
- 特点:收益不一定是零和,双赢或者双输局面
- 示例:“胆小鬼”游戏(Chicken Game)
纳什均衡(Nash Equilibrium)
- 定义:若无玩家能通过单方面改变策略来提高收益,则该策略组合是纳什均衡
- 纳什均衡定理:
- 每个有限策略的博弈至少存在一个纳什均衡点
- 示例
- 在胆小鬼游戏中,((1,0),(1,0)) and ((0,1),(0,1))and ((1/2,1/2),(1/2,1/2))的混合策略均为纳什均衡
总结
- 零和博弈:存在极小极大最优策略
- Von Neumann 极小极大定理:保证零和博弈的均衡点
- 随机算法分析:可用博弈论方法得出最优策略及下界
- 一般和博弈:纳什均衡概念适用于更多实际问题





