最大熵RL算法介绍

guoxiaojun

最大熵RL算法

最大熵RL算法介绍

对于一般的DRL，学习目标很直接，就是学习一个policy使得累加的reward期望值最大：

$\pi^{*}=\arg \max_{\pi} \mathbb{E}_ {\left(s_{t}, a_{t}\right) \sim \rho_{\pi}}\left[\sum_{t} R\left(s_{t}, a_{t}\right)\right]$

而最大熵RL，除了上面的基本目标，还要求policy的每一次输出的action 熵entropy最大：

$\pi^{*}=\arg \max_{\pi} \mathbb{E}_ {\left(s_{t}, a_{t}\right) \sim \rho_{\pi}}[\underbrace{R\left(s_{t}, a_{t}\right)}_ {\text {reward}}+\alpha \underbrace{H\left(\pi\left(\cdot | s_{t}\right)\right)}_{\text {entropy }})]$

这样做的基本目的是什么呢？让策略随机化，即输出的每一个action的概率尽可能分散，而不是集中在一个action上。

最大熵算法优势

以前用deterministic policy的算法，我们找到了一条最优路径，学习过程也就结束了。现在，我们还要求熵最大，就意味着神经网络需要去explore探索所有可能的最优路径，这可以产生以下多种优势：

1）学到policy可以作为更复杂具体任务的初始化。因为通过最大熵，policy不仅仅学到一种解决任务的方法，而是所有all。因此这样的policy就更有利于去学习新的任务。比如我们一开始是学走，然后之后要学朝某一个特定方向走。

2）更强的exploration能力，这是显而易见的，能够更容易的在多模态reward （multimodal reward）下找到更好的模式。比如既要求机器人走的好，又要求机器人节约能源

3）更robust鲁棒，更强的generalization。因为要从不同的方式来探索各种最优的可能性，也因此面对干扰的时候能够更容易做出调整。（干扰会是神经网络学习过程中看到的一种state，既然已经探索到了，学到了就可以更好的做出反应，继续获取高reward）