最大熵RL算法介绍



  • 最大熵RL算法

    最大熵RL算法介绍

    对于一般的DRL,学习目标很直接,就是学习一个policy使得累加的reward期望值最大:

    π=argmaxπE(st,at)ρπ[tR(st,at)]\pi^{*}=\arg \max_{\pi} \mathbb{E}_ {\left(s_{t}, a_{t}\right) \sim \rho_{\pi}}\left[\sum_{t} R\left(s_{t}, a_{t}\right)\right]

    而最大熵RL,除了上面的基本目标,还要求policy的每一次输出的action 熵entropy最大:

    π=argmaxπE(st,at)ρπ[R(st,at)reward+αH(π(st))entropy )]\pi^{*}=\arg \max_{\pi} \mathbb{E}_ {\left(s_{t}, a_{t}\right) \sim \rho_{\pi}}[\underbrace{R\left(s_{t}, a_{t}\right)}_ {\text {reward}}+\alpha \underbrace{H\left(\pi\left(\cdot | s_{t}\right)\right)}_{\text {entropy }})]

    这样做的基本目的是什么呢?让策略随机化,即输出的每一个action的概率尽可能分散,而不是集中在一个action上。

    最大熵算法优势

    以前用deterministic policy的算法,我们找到了一条最优路径,学习过程也就结束了。现在,我们还要求熵最大,就意味着神经网络需要去explore探索所有可能的最优路径,这可以产生以下多种优势:

    1)学到policy可以作为更复杂具体任务的初始化。因为通过最大熵,policy不仅仅学到一种解决任务的方法,而是所有all。因此这样的policy就更有利于去学习新的任务。比如我们一开始是学走,然后之后要学朝某一个特定方向走。

    2)更强的exploration能力,这是显而易见的,能够更容易的在多模态reward (multimodal reward)下找到更好的模式。比如既要求机器人走的好,又要求机器人节约能源

    3)更robust鲁棒,更强的generalization。因为要从不同的方式来探索各种最优的可能性,也因此面对干扰的时候能够更容易做出调整。(干扰会是神经网络学习过程中看到的一种state,既然已经探索到了,学到了就可以更好的做出反应,继续获取高reward)


 

Copyright © 2018 bbs.dian.org.cn All rights reserved.

与 Dian 的连接断开,我们正在尝试重连,请耐心等待