深度学习—你的数据够多么?



  • 引用

    谷歌研究文章:http://www.anyv.net/index.php/article-1427413
    百度研究院文章:http://www.sohu.com/a/209748313_114877

    数据够多么?

    这里两家巨佬的一致性结论,明确一下深度学习萌新们对于数据量的一个观点,这也是我之前一直考虑的事情:网络喂入的数据量大了之后会不会导致网络分不出来,或者到了无法解析的瓶颈。下面来解决大家这个疑惑!

    数据量不同阶段

    通常使用的模型一样时,喂不同数量级的数据可以性能呈现3个阶段(下图横坐标取了对数)。

    • 第一阶段:数据很少,网络学习不出东西。
    • 第二阶段:数据多了,随着数据指数增长,性能线性提升。
    • 第三阶段:饱和了,数据大到一定程度,上帝都分不清楚了,当前模型理论无法超越的底线。
      0_1525868689781_cea50ea9-df85-457f-b602-094ce71438d7-image.png

    然而~,google在3亿张图片上进行了测试,发现这个数量级,仍然保持了这个规律,有点像摩尔定律哦~,说明对于很多深度学习问题来说,数据量永远不要担心太多。下图训练集中存在20%的噪声,但是大数据量还是掩盖了噪声的干扰(这一点没有去原文论证)。其次,随着数据的增大,网络的容量增大是必要的,不然无法满足其所需的复杂度。
    0_1525868848820_b6a30cff-a580-4fdd-8004-d7966126a199-image.png

    一点结论

    • 数据不怕多,目前的问题,数据越多越好
    • 数据不怕噪声(一定程度内),数据噪声可以被数据量部分掩盖
    • 数据越大,网络需要越大,这里的大不光是参数变多,同时也对应着更深的网络。(有人研究,相同复杂度的情况下,深层网络会比浅层宽网络更容易训练哦)


  • 不够多不要紧,贝贝组标签队是您的忠实后盾。为您的深度学习保驾护航。



  • @hunto 这个回复和签名一样骚



  • @hunto 老铁厉害了,肝完论文,我就加入贝贝标签队。


 

Copyright © 2018 bbs.dian.org.cn All rights reserved.

与 Dian 的连接断开,我们正在尝试重连,请耐心等待