深度学习—你的数据够多么？

continue

引用

谷歌研究文章：http://www.anyv.net/index.php/article-1427413
百度研究院文章：http://www.sohu.com/a/209748313_114877

数据够多么？

这里两家巨佬的一致性结论，明确一下深度学习萌新们对于数据量的一个观点，这也是我之前一直考虑的事情：网络喂入的数据量大了之后会不会导致网络分不出来，或者到了无法解析的瓶颈。下面来解决大家这个疑惑！

数据量不同阶段

通常使用的模型一样时，喂不同数量级的数据可以性能呈现3个阶段（下图横坐标取了对数）。

第一阶段：数据很少，网络学习不出东西。
第二阶段：数据多了，随着数据指数增长，性能线性提升。
第三阶段：饱和了，数据大到一定程度，上帝都分不清楚了，当前模型理论无法超越的底线。

然而~，google在3亿张图片上进行了测试，发现这个数量级，仍然保持了这个规律，有点像摩尔定律哦~，说明对于很多深度学习问题来说，数据量永远不要担心太多。下图训练集中存在20%的噪声，但是大数据量还是掩盖了噪声的干扰（这一点没有去原文论证）。其次，随着数据的增大，网络的容量增大是必要的，不然无法满足其所需的复杂度。
0_1525868848820_b6a30cff-a580-4fdd-8004-d7966126a199-image.png

一点结论

数据不怕多，目前的问题，数据越多越好
数据不怕噪声（一定程度内），数据噪声可以被数据量部分掩盖
数据越大，网络需要越大，这里的大不光是参数变多，同时也对应着更深的网络。（有人研究，相同复杂度的情况下，深层网络会比浅层宽网络更容易训练哦）

hunto

不够多不要紧，贝贝组标签队是您的忠实后盾。为您的深度学习保驾护航。

wqy

@hunto 这个回复和签名一样骚

continue

@hunto 老铁厉害了，肝完论文，我就加入贝贝标签队。