【强化学习】西湖大学-强化学习的数学原理在线课程个人笔记

type

Post

status

Published

date

Mar 16, 2026

slug

summary

第一章基本概念

常用例：grid-world example

State

State是指agent相对于环境的一种状态。

在grid-world中，我们就可以用来表示各种状态，由这些状态构成的集合称为State space:

Action

Action是指每个状态中可采取的行动。

在grid-world中，存在五种可能的行动：

类似地，所有的Action构成的集合就是Action space：

值得指出的是，与状态是依赖的，即不同状态的Action是不同的

State transition

采取一个action，将agent从一个state移动到另一个state的过程。state transition定义了agent和环境的一种交互行为。

例如：。又如：（在本例中，向边界移动只会被撞回来到原位置，而不是对应的action不在其动作空间中）由于是在仿真中也可以定义成等等，实际的状态转化要取决于实际情况。

上例中，如果要是在选择了，下个state会是什么呢？

case 1：forbidden area可以进入但有惩罚：此时（课程中采用case 1）

case 2：forbidden area物理上不能进入的：此时

状态转移表（直观但受限，无法表达可能发生的若干种可能性）：

如何表示状态转移可能性（State transition probability）？

可以用语言的形式：在状态下，如果我们取动作，则下一个状态是。

也可以用数学的形式（条件概率）：这里的条件概率表示的含义是确定的，但是这种表达形式可以直观的表示出引入条件性和随机性的例子。

Policy（强化学习独有）

Policy告诉agent，“在这个状态应该采取哪个action”

上图中，s1的策略是： , , , , 所有的条件概率之和:

所有的条件概率也可以列表表示：

Reward

Reward是强化学习中非常具有独特性的概念。它是指在采取一个动作后得到的实数（标量）。通常来讲，reward为正代表我们鼓励模型采取这种行为，为负代表我们对模型做出的行为施以惩罚。

如果采取zero-reward策略会发生什么？简单来讲就是，”没有惩罚“。

正数reward可以代表惩罚吗？当然可以。

在grid-world中，我们采取这样的reward策略：

如果agent尝试离开边界，；

如果agent尝试进入forbidden，；

如果agent到达target，；

其他行为，。

reward可以被理解为是人机交互的一种手段：我们可以通过设置reward，迫使agent向着我们所期待的方向表现。上述的一种逻辑就是体现了我们不期望agent脱离边界、不期望其进入forb.区域，而期望其进入target块的一种策略定义方式。

下表的表示方式提供了一种表示形式，但其只能表示确定性的情况（例如当reward大小是随机的情况，此表就不再适用）。

用语言的形式表示reward：在状态下，如果我们取动作，则得到的reward是-1

也可以用数学的形式（条件概率）：

Trajectory and return

Trajectory是一个带有state、action、reward的链条，例如：

return是每个trajectory的reward总和，上面的trajectory的reward计算公式是：

return的大小可以在数学层面上比较出不同策略的优越性。（思考：return量化了trajectory，由此反映其背后policy的好坏，而其数值选择由state与对应的action决定，其数值定义由reward决定。因此，高质量的reward设计或许是整个强化学习流程中的最重要的一环）

考虑一类特殊情况：

此时return发散至无穷大！这显然违背了其量化策略的功能预期。

我们通过引入discount rete ,并引入discounted return：

引入discounted return的两大好处：

防止了发散至无穷的情况

平衡了“较远未来”和“较近未来”的影响情况

如果 ,“较远未来的”reward会缓步衰减，agent采取的策略会更加的远视

如果 ,“较远未来的”reward会快速衰减，agent采取的策略会更加的近视

Episode

agent在特定的停机状态终止，所得到的一个trajectory称之为episode或trial，一个episode通常是有限步的，下面这个就是一个episode的例子，它在s9正确停机。

当然，有些任务是没有停机state的，它们这类任务永远不会结束，我们称其为continuing tasks。

存在一种方法可以统合讨论episodic task和continuing task（epi. task to con. task）：

Option 1：把目标状态重设为一种“黑洞状态”，即把它的action重置为仅剩“原地停留”，并且r恒为0的状态，agent进入就无法退出。

Option 2:不区别对待目标状态，agent仍可以离开目标target并且在进入target状态时获得r=1奖励。（课程采用的方案）

Markov decision process

我们使用马尔可夫决策过程，用更加学术化规范化的定义重新回顾上述概念：

MDP的核心要素

• [P]集合 (Sets)： ◦ 状态 (State)： 状态集合。 ◦ 动作 (Action)： 与状态相关联的动作集合。 ◦ 奖励 (Reward)： 奖励集合。 • [P]概率分布 (Probability distribution)： ◦ 状态转移概率： 在状态下采取动作，转移到状态的概率为。 ◦ 奖励概率： 在状态下采取动作，获得奖励 r 的概率为。

• [D]策略 (Policy)： 在状态下选择动作的概率为。

• [M]马尔可夫性质 (Markov property)： 无记忆性 (memoryless property)。

MDP中的decision（policy）已经被固定下来时，那么我们就把这个整体叫做马尔可夫过程（MP）。