guoxiaojun 发布的帖子

guoxiaojun

关于softmax可以从概率角度思考为概率分布的相似的的比较，但是这位大神【从最优化的角度看待Softmax损失函数】 https://zhuanlan.zhihu.com/p/45014864 从最优化理论重新分析了softmax函数，也非常棒。

于是我尝试用这个理论分析了Focal loss，结果和focalloss的提出是一致的。

focal loss的提出背景

让我们首先了解类别不平衡数据集的一般的处理方法，然后再学习 focal loss 的解决方式。

在多分类问题中，类别平衡的数据集的目标标签是均匀分布的。若某类目标的样本相比其他类在数量上占据极大优势，则可以将该数据集视为不平衡的数据集。这种不平衡将导致两个问题：

训练效率低下，因为大多数样本都是简单的目标，这些样本在训练中提供给模型不太有用的信息；

简单的样本数量上的极大优势会搞垮训练，使模型性能退化。一种常见的解决方案是执行某种形式的困难样本挖掘，实现方式就是在训练时选取困难样本或使用更复杂的采样，以及重新对样本加权等方案。

对具体图像分类问题，对数据增强技术方案变更，以便为样本不足的类创建增强的数据。

Focal loss旨在通过降低简单样本的权重来解决类别不平衡问题，这样即使简单样本的数量很大，但它们对总损失的贡献却很小。也就是说，该函数侧重于用困难样本稀疏的数据集来训练。

Focal loss介绍

Focal loss是在交叉熵损失函数基础上进行的修改：
0_1587024519146_cccd4b36-0249-4da8-9680-554236e47e50-image.png
首先在原有的基础上加了一个因子，其中gamma>0使得减少易分类样本的损失。使得更关注于困难的、错分的样本。

此外，加入平衡因子alpha，用来平衡正负样本本身的比例不均：文中alpha取0.25，即正样本要比负样本占比小，这是因为负例易分。
0_1587024545326_b0f99146-7a50-4f2d-bbb6-379e4b473c37-image.png
alpha的引入只用来解决类别平衡问题，gamma的引入用于解决困难样本问题。

从优化角度分析

首先，分析几个常见函数的smooth版本

max函数

max函数的一种近似是LogSumExp函数
$LSE(X;\gamma) = \frac{1}{\gamma}\log \sum_i \exp(\gamma x_i) \approx \max(X)$
$\gamma$ 越大，效果越好
min函数

即LSE的负数版本
$NLSE(X;\gamma) = -\frac{1}{\gamma}\log \sum_i \exp(-\gamma x_i) \approx \min(X)$
relu函数
$Softplus(x) = \log(1+e^x)\approx\max(x,0)=[x]_+$

将focal loss转化为多分类形式
0_1587024751068_60dadf56-88da-4d43-8866-956b222106f2-image.png
到目前为止的的推理是在基于对softmax的理解的基础上，继续推导的结果。接下来只对左边的focal loss独有的部分推导。
0_1587024778559_7e57c2e3-2280-4320-b115-3a92ece1a3cf-image.png

即focal loss可以写为：
$\mathrm{L_{fl}}\approx e^{-\gamma [z_t-\max(z_i,i\ne t)]+}[\max(z_i,i\ne y)-z_y+m]_+$

gamma为0时与交叉熵一致，当gamma大于1时，相当于在loss前乘以了一个系数。这个系数的值可以小于1也可以约等于1，表示对loss的惩罚增加还是减少。

当 $z_t-\max(z_i,i\ne t) \ge 0$ 时，表明正确类的得分已经比其他类的最大得分大了， $e^{-\gamma [z_t-\max(z_i,i\ne t)]_+}$ 的值小于1，可以减少后面交叉熵损失函数的值。

当 $z_t-\max(z_i,i\ne t)\le0$ 时，由于使用了 $relu([x]+)$ 函数，所以 $e^{-\gamma [z_t-\max(z_i,i\ne t)]_+}$ 的值约等于1，之后交叉熵的损失函数不变。

这与focalloss的函数图像也是吻合的：
0_1587025366814_1055519-20180818170840882-453549240.png

focalloss的平衡问题

由于cross entropy回传loss时，正负类得到的梯度绝对值都是1，所以我们认为cross entropy是平衡的损失函数。

对于focalloss求导：
0_1587025402003_4364a6bf-1f8c-451d-a7ac-be3a919c8c96-image.png
这里带入值求解 a = [0.3,0.7],则y'=[0.40131234, 0.59868766],y=[1,0],取gamma=2

0_1587025429469_10608750-ae81-47aa-9ae2-7e4ffaba640f-image.png
求对z0的梯度：
0_1587025495405_cac8616f-f85c-4177-8012-4def019b16e1-image.png
求对z1的梯度：
0_1587025509702_2d0b1c26-10ec-4f35-a107-37dfc0d47b28-image.png
这是由于softmax函数的梯度本身是均衡的:
0_1587025549718_d23c5fbd-d2e7-4d86-a949-f1fbb8e8a36f-image.png
而 $a_j(1-a_j)-\sum_{i\ne j} a_ia_j = a_j(1-\sum a_i) = 0$

梯度的和为0，保证了只要是以softmax为预测层的loss都是均衡的。

guoxiaojun

上面的连接从markdown转出来的时候会出一些问题，可以手动改一下，不然大家看到就点不到了

guoxiaojun

@why 你这是最新课程，得发

guoxiaojun

CS294-112 2018课程笔记-2

主要内容

definition of sequential decision problems

序列决策问题的定义
Imitation learning: supervised learning for decision making

模仿学习
1. does direct imitation work
2. how can we make it work more often
case studies of recent work in (deep) imitation learning
what is missing from imitation learning

课程

###一些定义

0_1572444361396_8fd05cda-0be1-4164-989c-7c5391e0c1b3-image.png

因为我们不能一次性观察所有的 $s_t$ ，所以使用的是 $o_t$ 进行预测，我们从 $o_t$ 得到 $o_t$ 的分布。

另一个重要的条件（or 假设）： $s_t$ 是独立于 $s_{t-1}$ 的，这表明，如果只知道当前的状态而根本不知道过去的状态，如果能精确的知道当前的状态，那么之前的状态并不能帮助model or agent预测之后的状态。所以在状态决策问题中，如果能知道当前的状态的所有信息，则之前的信息对当前的决策不会有任何帮助，当前的知识就是所有需要用来预测动作的所有需要的信息。

在这里，如果知道 $s_2$ 的所有信息，则之前的 $s_1$ 的信息对做出 $a_2$ 并不能有任何帮助。但是，观察之间并不是独立的，下一条观察取决于之前所有的观察的总和。

所以在这里，这个决策链是马尔可夫的，即 $s_3$ 仅仅条件依赖于 $s_2$ ，这个性质叫做马尔可夫性质。

0_1572444385702_c29ffac4-6bd1-45ff-9ee7-916fba6be095-image.png

不同的表达形式：

在控制论中：之前的 $s_t$ 表示为 ${\rm x}_t$ ， $a_t$ 表示为 $\rm{u}_t$ 。

具体的问题

克隆学习

完全模仿人类的动作。有时并不可行，why?

人类犯错，没见过的情况，人类依据经验动作等等。

另外的问题，机器的误差会累积，机器偏移会累积。

需要解决的问题：让机器学会纠正自己的误差。

$data$ 当前收集的数据, $\pi_\theta\$ 模型的参数
让 $\ p_{data}(o_t) = p_{\pi_\theta}(o_t)$ 相当于让机器没有在data上的误差

如何做到，DAgger: Dataset Aggregaion

goal: collect training data from $p_{\pi_\theta}(o_t)$ instead of $p_{data}(o_t)$

how? just run ${\pi_\theta}(a_t|o_t)$ but labels $a_t</strong>$

从人类的数据 $D = {{o_1,a_1,...,o_{N},a_{N}}}$ 训练 ${\pi_\theta}(a_t|o_t)$

训练 ${\pi_\theta}(a_t|o_t)$ 得到新的dataset $D_\pi ={ {o_1,...,o_N}}$

询问人类专家，打标 $D_\pi$ 得到 $D_\pi$ 的

Aggregate: $D \gets D\cup D_\pi$

repeat 1

在这种情况下，可以解决样本分布不均的问题。这种训练方法收敛的条件是长时间的训练（在线训练）。

虽然也可以采用随机的策略进行初始训练，但是会导致训练困难，难以收敛的情况出现（不能保证收敛）。

这种方法并没有使用价值函数

DAgger的劣势：

需要大量的打标

有的时候会难以拟合人类的行为（因为马尔可夫假设）

...

为什么会无法拟合专家的行为？

非马尔可夫行为(Non-Markovian behavior)

相比于使用 $\pi_\theta(a_t|o_t)$ 只依赖于当前的观察 $o_t$ ，而是

$\pi_\theta(a_t|o_1,o_2,...,o_t)$ ，将行为依赖于所有的观察。

但是并不能将所有的观察input到网络中，这个问题解决的方法老师推荐是使用LSTM

多模型行为(Multimodal behavior)

有的时候行为是离散且多样的，可以使用最后一层添加softmax获得（离散）行为的分布。

tips:平均平方误差是高斯分布的对数概率

可能的问题是如果输出是个高斯分布，会让模型同时采取两种行为。

解决方法：

输出混合高斯模型

使用隐变量模型

选择行动时，使用自动回归离散化

具体：

输出混合高斯模型

$\pi(a|o) = \sum w_i \text{N}(\mu,\sum_i)$

输出不是一个均值和方差，而是N个均值和N个方差，这里的 $w_i$ 的和是1

这种方法称之为混合密度网络。

隐变量模型

输出仍然是一个单个的高斯分布，但是在模型的输入中增加一个随机数输入 $\xi-N(0,1)$

这个随机数可以是高斯分布或者均匀分布中采样获得。增加网络的随机性，改变输出的分布。

具体的说，在面对离散选择时，模型将在噪声中学习，解决离散问题。

但是如果模型的优化方向不正确，可能难以训练。（如果只是将噪声引入，使用最大似然进行训练，效果可能并不理想）

让神经网络有效利用噪声的方法：

conditional variational auto-encoder

normalizing flow/realNVP

stein variational gradient descent

自动回归离散化

对于纬度较低的output，可以使用直接离散化的方法，但是如果输出的纬度较高，则很难将输出直接离散化。

自动回归离散的方法是将输出的某个维度直接离散化，然后将离散化的结果输入到另一个深度网络，用第一个维度的所有采样和第二个维度的条件来预测一个离散化的结果。

之后重复这个过程，对所有维度进行离散化。

（并没有看懂）

逆强化学习

模仿学习的问题还有啥？

data是有限的，这可能限制了AI的上限

人类并不能示范所有的action，如控制机器人（大量参数，10条腿，20只手），或者超越人类等

机器能否自主学习？不断进化？

这里目标的概念：

在模仿学习中：复制示范的动作

可以定义reward function:

$r(s,a) = \log p(a = \pi^*(s)|s)$

符合专家行为的对数概率

s状态下，选择的动作a等于 $\pi^*$ （专家）的动作的概率的对数（感觉应该是cost function）

或者其他的cost function: 01loss

动作相同，0

动作不同，1

DAgger 方法可以最大化这里的reward function

在自主学习中：

$c(x,u) \ cost\ function 控制论\ r(s_t,a_t)\ reward \ function 强化学习$

二者十分类似，只是在数值上互为相反数。

现在举一个例子：

对于cost function：

意思是在所有的traindata 中的结果都不会太差。

对于T个steps，所有的cost和的期望：

$E{ \sum_t c(s_t,a_t)} \leqslant \epsilon T + (1-\epsilon)(\epsilon (T-1))+(...)$

$O(\epsilon T^2)$

损失是T平方级

More general analysis

对于所有的和训练数据相同分布的 $P_{train}$ ，犯错的概率的上限也只是 $\epsilon$ ，（这是一种非常强的假设）

如果使用DAgger ，数据分布不匹配的问题就会消失，所以看到的样本和P_train相同。

经过最良好的训练后，得到的cost function 的数量级应该是：T线性

$E{ \sum_t c(s_t,a_t)} \leqslant \epsilon T$

guoxiaojun

CS294-112 2018课程笔记-1

课程主要讨论强化学习和深度强化学习的内容

什么是强化学习

深度学习已经（大致）解决了识别环境的问题，这只是帮助人类做出决策的手段。强化学习的目的是不只是识别，而是得出当前状态下应该采取的行动。

agent decisiongs environment rewards
TD gammon

第一个使得强化学习在游戏领域获得成功的方案。他是一种将强化学习与神经网络相结合，得到网络的价值函数。模型采用的算法成为集合值迭代算法（fitted value iteration）。（与alpho GO类似）。
什么是deep RL

十五年前，cv关注的内容是得到图片的fearure，在图片中得到图片的各种人为规定的feature。通过预定的feature，再学习到高层的组合feature，学习只在最后的几层达到。

deep learning 是端到端的，feature 是自动得到的。

关于RL，是将当前的状态得到feature，然后使用当前的状态feature和各种价值函数得到当前的决策。这就导致获得当前的feature就是使得RL达到更高的水平的瓶颈。

deep RL 可以使得RL变得end2end，使得feature 的获得变成一个自动的过程。高质量的feature提升了RL系统的上上限。
examples

机器人系统，使得机器人学会一个功能。
关于价值函数

价值函数是模型优化的目标，为了打成确定的目标，需要根据要求设定与目标相同的价值的函数。

所以无论是什么问题，只要精确的设计了价值函数，总能通过强化学习的方法解决。
rewards

可能是game的score，但是生活中的事情并没有score，没有明确的意义和价值表达，And:

You konw as human agents we are accustomed to operating with rewards thar are so sparse that we only experienced them once or twice in a lifetime if at all.

如果只有完成一件事情才能得到reward，则有的事情根本不会开始。所以模仿也是获得经验的一种方式。观察学习。迁移学习。
预测

预测动作后环境的样子。以此获得在未经理的事情下的动作能努力。
how to build intelligent machines

假设

learning as the basis if intelligence
至今RL仍然存在的问题
1. 人类学习的学习速度相较机器incredibly quickly
2. 人类可以使用以往的学习经验
3. 并不清楚reward function 的作用
4. production 在RL的中的定位并不明晰，我们不知道是否应该发展model-free RL还是model-based RL还是他们本质上是相同的东西。

guoxiaojun

参考资料

无线通信中的MIMO
Massive MIMO and 3D Beamforming
5G基础知识介绍第5节第六部分_Massive MIMO

MassiveMIMO在5G

5GNR中，支持下行八层MIMO及上行4层MIMO

Massive MIMO的优势

相较于传统的MIMO系统，Massive MIMO系统的空间分辨率被极大地提升了。 Massive MIMO技术可以在没有基站分裂的条件下实现空间资源的深度挖掘。
波束赋形技术能够让能量极小的波束集中在一块小型区域，因此干扰能够被极大地减少。波束赋形技术可以与小区分裂、小区分簇相结合，并与毫米波高频段共同应用于无线短距离传输系统中，将信号强度集中于特定方向和特定用户群，实现信号的可靠高速传输。
Massive MIMO技术能够通过不同的维度（空域、时域、频域、极化域）提升频谱利用效率和能量利用效率。

guoxiaojun

Beam-forming的类型

根据Beam-forming是用模拟还是数字的方式，分为三类：模拟、数字、混合。

模拟方式beam-forming 使用移相器实现，数字beamforming使用**预编码(pre-coding)**实现，混合则使用二者的混合实现。

数字波束成形（Digital Beamforming）

数字波束成形（Digital Beamforming）是在基带处使用beamforming 技术，即在基带处使用precoding技术使得各天线上的发射的信号形成相位差，从而达到beamforming 的效果。所以digital beam forming又称为Precoding。Beamforming是precoding的一个作用。

其优点为：

天线数目少时，便于实现。（纯数字处理，不需要加移相器）
便于设计复杂的算法
适用于多层及多用户（precoding不仅能实现beamforming，还能实现空间复用（multiplexing））

缺点：

当天线数目较大时，成本高
硬件需求高（因为每一个天线的都要有一套独立的RF（Radio Frequency）链，导致成本高，硬件需求高）

模拟波束成形（Analog Beamforming）

模拟波束成形指在基带处使用RF beamforming技术，即在天线处使用移相器使得各个天线上发射的信号形成相位差，从而达到beamforming 的效果。所以Analog Beamforming 又被称为RF beamforming。

其优点为：

天线数目多也便于使用
降低硬件复杂性

缺点：

在天线数目较少时灵活性降低
不易于设计复杂算法
无法实现MIMO场景

混合波束成形（Hybrid Beamforming）

Hybrid Beamforming 结合了数字和模拟技术，使得两种凡是的优势得以发挥，缺点得以弥补。

在数字侧主要管空间复用， MIMO，使precoding发挥优势。Beamforming在RF侧使用模拟技术

优点：

性能与成本及复杂度得到平衡
基带部分主要实现MIMO，RF部分主要实现beamforming

guoxiaojun

MassiveMIMO系统定义

Massive MIMO定义：Massive MIMO利用MIMO技术并使用数十根甚至上百根天线将传统MIMO天线系统扩展为大规模天线矩阵，从而利用大规模天线矩阵所提供的波束附形技术聚焦传输和接收信号的能量到有限区域来提高能量效率和传输距离，并利用MIMO的空间复用技术提高传输速率。

即Massive MIMO = Beamforming + Spatial Multiplexing

什么是波束成形

并列的多个天线振子可以使发射信号形成方向性-波束成形（beam forming）
多个振子之间的相对相位改变使得发射信号的方向变化-波束导向（beam steering）

实际的波束成形系统

实际的波束成型系统一般都是三维的，使用二维平面上的天线阵列形成波束，发送给对应的UE。

Vertical up-down tilting + Horizontal Beamforming = 3D Beamforming

guoxiaojun

MIMO代表多输入多输出无线技术。在通信系统中，吞吐量是用户和服务提供商最在意的几个参数之一。为了提高新一代移动通信技术的吞吐量，5G采用了MassiveMIMO技术。它能有效的在指定的带宽和发射功率下，增大信道的容量，提高吞吐量。

信道容量的计算方法

信道的容量表示为：

$C = N \cdot B\log_2(1+\frac{S}{N})$

其中N表示通道数，B表示带宽，S/N为信噪比。所以想要增加信道容量，我们需要多通道、大带宽、高的接收功率。接收功率计算表达式为：
$P{r}=P{t} \frac{G{t} G{r} \lambda^{2}}{(4 \pi R)^{2}}$
其中 $P_r$ 为接收功率， $P_t$ 为传输功率， $G_t$ 为发射增益。 $G_r$ 为接收增益， $\lambda$ 为波长， $R$ 为发射天线与接收天线距离。

由于不方便在用户增加增益等，所以增加接收功率的最好的方式是增加发射增益。5G采用的是毫米波作为频带，所以带宽是一定的，对于多通道技术，需要采用空间复用的方式，对应的技术就是MIMO。而将毫米波技术结合增加发射增益，就对应beam-forming技术。二者的结合称之为MassiveMIMO技术。

值得注意的是这里的通道数表示的是在同样的频率下，增加的通道数，同样能增加信道的容量。

guoxiaojun

MU-MIMO系统模型定义

考虑一个包含 $N$ 个RB的单小区MIMO-OFDM下行链路系统。其中BS配有 $N_T$ 根天线，小区内共有K个单天线的待服务用户。假设基站采用单波束向用户发送数据。基站根据用户的CSI将一个或多个RB分配给用户。假设基站和用户一直完美的用户CSI。用户和基站之间的信道是慢衰落的，也就是说信道在想在TTI内保持不变。用 $h_{n,k}\in1\times N_T$ 表示在RB n上的用户k与基站BS之间的信道矩阵，具体表示为：
$h_k= g_kA_k$
其中 $g_k$ 是一个维度为 $1\times N_p$ 的向量，各元素均为0、方差为1的独立同分布的复高斯变量。 $A_k \in \mathbb C^{N_p\times N_t}$ 是传输方向矩阵，包含与N_p个DoD相对应的 $N_p$ 发射天线阵列方向向量。由于天线阵列为线性、均匀分布，发射方向矩阵的表达式为：
$A_k = \frac{1}{\sqrt{N_p}}[a^T(\theta_{k,1}),...,a^T(\theta_{k,N_p})]^T$
其中 $i\in 1,2,...,N_p \ \ i\in {1,2,3,...,N_p}$ , $d$ 等距排列的天线距离， $\lambda$ 是载波波长。

RB $n$ 上的用户k的接受信号表示为：
$y_{n.k}=\sqrt{P_{r,k,n}}h_{n,k}w_{n,k}x_{n,k}+h{n,k}\sum_{j=1,j\ne k}^{K}\sqrt{p_{r,j,n}}w_{n,j}x_{n,j}+n$
第一项表示BS发射给用户k的期望信号，第二项表示同时在RB n上的其他用户对用户k引起的用户间干扰。n表示功率谱密度为 $\sigma_n$ 的高斯白噪声。 $w_{n,k}$ 和 $p_{r,k,n}$ 分别表示RB n上用户k的预编码矩阵的接受攻略。其中 $p_{r,k,n}$ (dB)的表达式为：
$p_{r,k.n}(dB) = p_t-PL_k$
中间省略很多计算。。。

这里使用ZF线性预编码能够完全消除IUI，且比起同样能完全消除IUI的DPC具有耕地的复杂度。ZF预编码矩阵的计算如下：
$W_n = H_n^H(H_nH_n^H)^{-1}$
其中 $H_n=[h_{n,1}^T,...,h_{n,k}^T]^T$ , RB n上用户k的预编码矩阵 $w_{n,k}$ 为 $W_n$ 的第k列。如果用户数大于发射天线数$K> N_T$，则不能再用ZF预编码。

假设RB n上的用户数为 $k_n$ ，即 $|\Omega| = k_n$ 。那么共有 $\sum\limits_{k_n=1}^{N_T}\binom{K}{k_n}$ 种不同的后选组合，每个后选集合中的用户数不超过 $N_T$ 。对同一个RB上的用户使用ZF预编码矩阵，RB n上的用户k的瞬时SINR为:
$SINR_{n,k}=\frac{\frac{p_{r,k,n}}{c}}{\sigma_n\cdot \frac{B}{N}}$
其中 $c = w_{n,k}^Hw_{n,k}$ , $B$ 表示系统带宽。根据香农容量定理，RB n上用户k上能达到的频谱效率为：
$r_{n,k}=\log_2(1+SINR_{n,k})$
为了使得系统的数据速率值和达到最大值，将等权重的和速率作为目标函数。同时，在最大化各用户数据速率的基础上，考虑到用户的公平性，引入约束条件来明确地规定用户间地数据速率比值。那么，该优化问题用数学表示为：
$\max \frac{B}{N}\sum_{n=1}^{N}\sum_{k=1}^{K}\rho_{n,k}r_{n,k}$
使得：
$\rho_{n,k}={0,1}$
$\sum_{k=1}^{K}\rho_{n,k}\leq K_0, \forall n \in S,$
$\sum_{n=1}^{N}\sum_{k=1}^{K}\rho_{n,k}r_{n,k}\leq P_T, \forall k \in U, n\in S$
$r_1:r_2... r_K =r_1^Q:r_2^Q... r_k^Q$
其中 $\rho_{n,k}$ 是RB的分配指示参数， $\rho_{n,k}=1$ 表明RB n被分配给了用户 $k$ 。约束条件2是表面每个RB上用户数的最大值。 $U={1,2,...,K}$ 是所有激活用户的集合， $S={1,2,...,N}$ 是所有RB的集合， $P_T$ 是基站BS的最大发射功率。约束条件3是所有用户功率和不超过限制。约束条件4中， ${R_k^Q} _ {k=1}^K$ 中是预先设置的各用户的目标速率。用户k的数据速率 $r_k$ 表示为 $r_k=\frac{B}{N}\sum\limits_{n=1}^{N} \sum \limits_{k=1}^{K}\rho_{n,k}r_{n,k}$