强化学习总纲

以下是根据搜索资料整理的强化学习知识点教程框架，关键术语以[[ ]]标注并标注来源：

核心要素
- 智能体（Agent）：学习与决策的主体，通过与环境交互实现目标（如AlphaGo的决策模块）
- 环境（Environment）：智能体外部的一切，包含状态转移与奖励机制（如游戏引擎或物理世界）
- 状态（State）：描述环境的瞬时特征（如棋盘布局、传感器数据）
- 动作（Action）：智能体可执行的操作集合（如移动方向、投资决策）
- 奖励（Reward）：标量反馈信号，驱动智能体优化策略（如游戏得分、能耗指标）
学习机制
- 策略（Policy）：状态到动作的映射规则（确定性策略如 $μ (s)$ ，随机性策略如 $π (a ∣ s)$ ）
- 价值函数（Value Function）：衡量状态或状态-动作对的长期期望回报（ $V (s)$ 和 $Q (s, a)$ ）
- 探索与利用（Exploration vs. Exploitation）：平衡尝试新动作与利用已知高回报动作的矛盾
理论框架
- 马尔可夫决策过程（MDP）：基于状态转移概率和即时奖励的数学模型，包含状态、动作、转移概率、奖励函数和折扣因子
- 贝尔曼方程（Bellman Equation）：递归表达价值函数的核心公式（ $V (s) = max_{a} [R (s, a) + γ \sum_{s^{'}} P (s^{'} ∣ s, a) V (s^{'})]$ ）

经典方法
- Q-learning：无模型的离线策略算法，通过更新Q表逼近最优动作价值函数
- SARSA：在线策略的TD控制方法，更新依赖实际执行动作而非最大值
深度强化学习
- DQN（深度Q网络）：结合Q-learning与神经网络，引入经验回放和固定目标网络解决不稳定问题
- 策略梯度（Policy Gradient）：直接优化策略参数，适用于连续动作空间（如REINFORCE算法）
- PPO（近端策略优化）：通过截断目标函数实现稳定训练，广泛应用于复杂任务
- SAC（软演员-评论家）：引入最大熵框架平衡探索与利用，适用于高维连续控制
进阶变体
- CQL（保守Q学习）：通过正则化防止Q值高估，提升离线强化学习性能
- TD3（双延迟深度确定性策略梯度）：改进DDPG，采用双Q网络与目标策略平滑

必备工具
- 动态规划（Dynamic Programming）：求解MDP的迭代方法（如策略迭代、价值迭代）
- 概率论与统计：理解状态转移分布、期望回报计算及探索策略设计
- 凸优化与梯度下降：策略网络参数更新与损失函数优化的核心技术
关键推导
- 贝尔曼最优性原理：证明最优策略对应的价值函数满足自洽方程
- 策略梯度定理：推导策略性能度量对参数的梯度表达式

复杂场景扩展
- 多智能体强化学习（MARL）：处理竞争/协作环境（如博弈论结合的Nash均衡求解）缺失需补充
- 逆强化学习（IRL）：从专家示范中推断奖励函数（如模仿人类驾驶行为）缺失需补充
- 分层强化学习（HRL）：通过子策略分解解决长期信用分配问题缺失需补充
前沿方向
- 基于Transformer的强化学习：利用注意力机制处理长序列决策（如决策Transformer）缺失需补充
- 元强化学习（Meta-RL）：快速适应新任务的小样本学习框架缺失需补充

典型领域
- 游戏AI（Atari游戏、AlphaGo）
- 机器人控制（机械臂抓取、无人机导航）
- 推荐系统（动态调整推荐策略）
- 自动驾驶（路径规划、交通信号优化）
实践挑战
- 奖励设计（Reward Shaping）：通过人工干预加速学习（如稀疏奖励问题的潜在函数法
- 部分可观测MDP（POMDP）：处理不完全状态信息（如LSTM记忆历史状态）

标注说明：

🌏 GIStudio