xuxiaohao

xuxiaohao

A visual proof that neural nets can compute any function

神经网络可以近似任何连续函数的直观解释by Michael Nielsen / Oct 2018
一、Case1：one input&one output

hiden layer 中采用的激活函数是sigmoid函数：
当只有一个hiden layer 神经元（另一个W设为0），且W足够大的时候，通过调整b,可以得到[0,1]区间内的一个阶跃函数。
类似的，当同时利用两个hiden layer 神经元时，我们可以通过调整权值，使得其近似于bump function：
其中
推而广之，当我们的hiden layer中的神经元越多，就能利用bump function的叠加组合，得到任意一个函数更好地近似。

二、Case2：two input&one output
0_1543541348510_c0a8dfbb-6535-4602-ba5d-fd5f10739f16-image.png

此时NN近似的函数在三维空间中，为二元函数。
与一元情况相类似的，我们可以使得NN近似一个阶跃函数，
同时，也可以得到一个三维空间中的bump function:
当同时利用了x,y输入时，可以得到一个Tower function:
推而广之，可以得到任意一个三维空间内部的函数的良好近似效果：

当加上bias项时，可以看做Tower function的上下平移。

二、Extension beyond sigmoid neurons

不只是基于sigmoid激活函数的神经元可以进行对于任意函数的近似效果，其他的激活函数也可以达到同样的效果：随着权重越来越大，此函数也不断收缩，进而也能够产生step function的特征：

0_1543542202414_c52263fc-fde3-4ed3-a06e-7a044016fa94-image.png
0_1543542265103_709b5cbe-6fb1-4643-9de2-1de10360575a-image.png

0_1543542289219_f1b8b5bc-a7fc-4b77-b18a-46e11d61fbe1-image.png

三、Fixing up the step functions

虽然我们的神经元近似的阶跃函数会有一定的误差，在每一次的近似过程中产生“a narrow window of failure”。但是我们可以通过大量的近似函数的平均来减小误差。

xuxiaohao

CS231n 反向传播算法补充

反向传播的核心问题是基于链式法则对于梯度值的传递。
CS231n课程笔记中对于神经元的一种(有趣的)直观理解：将神经元看做是逻辑运算中的加法器、乘法器等逻辑门的组合。反向传播是一个优美的局部过程。门单元完成这两件事是完全独立的，它不需要知道计算线路中的其他细节。
在整个计算线路图中，每个门单元做两件事：
1. 前向传播时计算这个门的输出值。
2. 反向传播时计算输出值关于输入值的局部梯度。
反向传播可以看做是门单元之间在通过梯度信号相互通信，只要让它们的输入沿着梯度方向变化，无论它们自己的输出值在何种程度上升或降低，都是为了让整个网络的输出值更高。
需要注意的一些东西：
1. 对前向传播变量进行缓存，便于反向传播时的计算。
2. 在不同分支的梯度要相加：如果变量在线路中分支走向不同的部分，那么梯度在回传的时候，就应该进行累加。
3. 矩阵计算梯度的时候要先分析维度
回传流中的模式：（基于逻辑门直观解释梯度反向传播）
1. 加法门单元：把输出的梯度相等地分发给它所有的输入，因为局部梯度为+1
2. 取最大值门单元：对梯度做路由
3. 乘法门单元：局部梯度为相互交换之后的输入值

xuxiaohao

《A Few Useful Things to Know about Machine Learning》论文学习笔记（下）

（续上文。。）
TIPS：

THEORETICAL GUARANTEES ARE NOT WHAT THEY SEEM
理论保证就是为了理解，不会在实际运用中起到决策作用，最多就是在设计算法的时候给一些提示。
FEATURE ENGINEERING IS THE KEY
机器学习过程中，数据的预处理以及数据特征的设计和选择也很重要。有些特征单独看上去是不相关的，但是在组合的时候是相关的。
MORE DATA BEATS A CLEVERER ALGORITHM
大量的数据可能胜过聪明的算法，因为它能够以更快的方法获得成效。机器学习的瓶颈包括时间、内存和训练数据。同时，更多的数据意味着更加复杂的分类器需要学习，更聪明的算法更难驾驭。
LEARN MANY MODELS, NOT JUST ONE
不同的学习器的融合可以获得更加好的结果。现在有很多模型集成技术，如：bagging、boosting、stacking。
模型融合的方法，可以将弱分类器融合之后形成一个强分类器，而且融合之后的效果会比最好的弱分类器更好。
SIMPLICITY DOES NOT IMPLY ACCURACY
著名的occam’srazor原理中说：entities should not be multiplied beyond necessity。争取的理解是：开始的时候选择简单的假设，可以修正它，直到效果理想。但是不要一开始从复杂的做起，而不是要找简单作为最终的学习器。
REPRESENTABLE DOES NOT IMPLY LEARNABLE
一个函数可以被表示出来，不见得就能被学习。当我们给定了数据、时间和内存时，用标准的学习器来学习，但是只能学习到所有可能函数的一部分，并不能学习到所有的函数。有的函数它能够写成某种形式，但是我们也可能没有办法求到它。所以要多试一些学习器。
CORRELATION DOES NOT IMPLY CAUSATION
相关性并不意味着因果（obviously~）

xuxiaohao

《A Few Useful Things to Know about Machine Learning》论文学习笔记（上）

这是CS231n讲义中拓展阅读中推荐的一篇paper，作者是Pedro Domingos，主要对初学者学习机器学习的一些误区进行了解答并提供了一些有用的技巧。

TIPS ：

Learning=presentation+evaluation+optimization
进行机器学习之前首要考虑的是如何表现数据输入，并且要做到分类器和特征相匹配，不同的特征需要不同的分类器，有些特征适合使用决策树、有些适合使用线性分类器。
IT’S GENERALIZATION THAT COUNTS
分类器的目标是达到一种好的泛化效果而不是在训练集上追求准确率，对于数据集要将训练集和测试集分开。
DATA ALONE IS NOT ENOUGH
每一个机器学习器（learner）应该具有一些先验知识和假设，以便于机器学习更好进行分类选择。
OVERFITTING HAS MANY FACES
泛化是目标，因而过拟合（overfitting）自然是要避免的，造成过拟合的主要原因是训练数据太少或者模型太复杂。泛化误差由bias和variance构成。交叉验证、增加正则项有利于避免过拟合的产生
INTUITION FAILS IN HIGH DIMENSIONS
直觉不适用用高维空间，因为首先，高维度下，训练数据就会显得不够用；其次，即使数据够用，那么多的特征也只有很少一部分起到作用，进而大量的其他无用特征可能会带来噪声，使得原本的结果变得更加糟糕；最后，即使训练数据够用，并且所有维度的特征都起作用，数据在高维度时也会变得很相近。
一种叫做“blessing of non-uniformity”的特点能够对机器学习有所帮助。考虑到大多数的数据并非在空间中均匀分布的，集中于空间的某一区域或者接近一个低维度的流形（a lower-dimensional manifold），我们可以进行降维。

To be continued...
（感觉写得很好，很有收获，慢慢锻炼自己读paper的能力吧~）

xuxiaohao

@xuxiaohao

xuxiaohao 发布的帖子

A visual proof that neural nets can compute any function

CS231n 反向传播算法补充

《A Few Useful Things to Know about Machine Learning》论文学习笔记（下）

《A Few Useful Things to Know about Machine Learning》论文学习笔记（上）

xuxiaohao

@xuxiaohao

xuxiaohao 发布的帖子

A visual proof that neural nets can compute any function

CS231n 反向传播算法补充

《A Few Useful Things to Know about Machine Learning》 论文学习笔记（下）

《A Few Useful Things to Know about Machine Learning》 论文学习笔记（上）

《A Few Useful Things to Know about Machine Learning》论文学习笔记（下）

《A Few Useful Things to Know about Machine Learning》论文学习笔记（上）