从傅里叶分析角度解读深度学习的泛化能力

  • 时间:
  • 浏览:3
  • 来源:uu快3app娱乐_uu快3辅助_官方网址

傅里叶分析的理论框架非常好地解释了 DNN 为哪些在拥有几瓶参数的请况下既能专学 训练数据,又能保持好的泛化能力,简单地说,原因分析分析频率原则,DNN 学习到的函数的频率范围是根据训练数据的时需而达到。对于哪些比训练数据的最高频率还高的频率成分,DNN 能保持它们幅度很小。

本文来自云栖社区企业企业合作伙伴“PaperWeekly”,了解相关信息要能 关注“PaperWeekly”。

图4

其中,对应神经元的权重(weight),是关于对应神经元所有参数和频率 ω 的另从前项式,A(ω) 是学习到的函数与目标函数的差的幅度。文献 [3] 论述了你五种 表达式怎么能否定性的推广到一般 DNN。

原文发布时间为:2018-08-24

理论上理解强度学习的泛化能力

总结

文献 [2] 对 DNN 学习到的函数的频率幅度的估计并要能解释哪些问提。有点痛 地,对于层数和神经元数目足够多的 DNN,文献 [2] 给出的理论要能解释为哪些 DNN 从低频开始英文了学习。在文献[2] 中,DNN 的拟合函数的高频成分受权重(weights)的谱范数(spectral norm)控制。对于小规模的DNN,要能 老会 观察到,权重的范数随训练而增长,从而允许小规模的 DNN 去拟合目标函数中的高频成分。而且,文献 [2] 在理论上给出频率原则的五种原因分析分析解释。

很大,低频不再占优,所以频率原则就很容易失效。而且,激活函数的高频成分也会变大。对于哪些频率高到训练数据也看要能的成分,原因分析分析训练过程要能限制它们,所以在训练完成后,它们仍然有比较大的幅度随后原因分析分析 DNN 的泛化能力变差。

对于初始化的问提,你五种 理论框架也给出了解释。原因分析分析初始化权重很大,原因分析分析上式中的

让我们都歌词 要能 从拟合一维函数出发考虑你五种 问提。训练数据集是少数十几个 均匀采样数据点,原因分析分析用多项式去拟合,阶数很高的随后(大于数据点个数),拟合的结果通常是从前要能精确刻画训练数据但振荡厉害的函数。随后原因分析分析用 DNN,无论多大规模,通常学习到的曲线全是相对平坦的。原因分析分析是一维函数,所以很容易想到,振荡和平坦可用傅里叶分析定量地刻画。于是就自然能猜想到,DNN 在学习的随后原因分析分析更加偏爱低频成分。

文献 [3] 给出了要能解释哪些问提的理论框架。从要能一层隐藏层的 DNN(sigmoid 作为激活函数)开始英文了,在傅里叶空间分析梯度下降算法,文献 [3] 得到损失函数 ω 在任一频率分量上对任一参数的导数。

从低频到高频的学习原则并不老会 对的,比如在文献 [1] 中讨论到的,原因分析分析目标函数是随机数据点(频率空间如此低频占优的形态学 ),原因分析分析 DNN 的参数的初始化的值比较大,你五种 原则就会失效。有点痛 是在大初始化的请况下,DNN 的泛化能力也会变差。

用傅里叶分析的强度来研究 DNN 的学习问提仍指在开始英文了的阶段,有所以有趣的问提值得继续深入,比如更加定量地分析 DNN 的学习过程,理解层数和每层强度对训练的不同贡献等等。

上方你五种 式子显示地定量地说明了在梯度下降过程中低频成分会有更高的优先级。但同時 时需注意的是,你五种 优先级不而且由频率决定,它也依赖于拟合函数与目标函数的差的幅度。

最近有几篇文章 [1,2,3] 从傅里叶分析的强度,在实验和理论上揭示了该悖论背后的五种机制。

下面是从前一维函数的例子 [1](图 1a 中的大洞),对数据作离散傅里叶变换后如图 1b 所示,考虑图 1b 中的频率峰值(大洞)在训练中的相对误差,如图 1c,频率越高,收敛越慢(暗蓝色表示相对误差大,红色表示相对误差小)。频率原则要能 粗糙地表述成:DNN 在拟合目标函数的过程中,有从低频到高频的先后顺序。(Frequency Principle or F-Principle in [1], or spectral bias in [2]

你五种 理论分析揭示了对于低频占优的目标函数,当 DNN 的参数是很小的数时,低频成分会先收敛,而且在低频成分收敛的随后,DNN 的高频成分仍然很小。而当 DNN 拟合高频成分的随后,原因分析分析收敛的低频成分只会受到很小的干扰。对高频占优的函数,整个训练过程就会变得复杂。低频容易受到高频的影响,所以低频是振荡式的收敛,每振荡一次,累积的最大幅度就会下降。而且频率越低,振荡越频繁(如下图 4 所示)。

F-Principle 并全是从前陌生的概念,而且让我们都歌词 日常生活中老会 全是用的从前原则。想象一下,原因分析分析让从前人去记住从前没见过的东西,一般比较粗糙的轮廓信息会先被记住,而且再是所以细节。没错,DNN 也正是使用了从前的从前学习过程。举从前例子,让我们都歌词 来训练从前 DNN 来记住一张图片。DNN 的输入是从前位置坐标 (x,y),让我们都歌词 希望它输出你五种 位置对应的灰度值。图 2 的一系列图展示了不同训练步数,DNN 学习到的图像,正如让我们都歌词 前面所猜测的从粗糙的轮廓到细节的学习过程。

图3. 说明:(d) 展示 (b) 中五个频率峰值在训练中的相对误差

图2

图1

强度学习成功地应用在所以领域,但对它的理论理解却非常不足英文。这两年,所以理论学家把关注点放进去去从前关于强度学习与传统学习理论的悖论上。在传统学习理论中,模型的参数太多,模型一般会更好地拟合训练数据,但模型的泛化能力(拟合测试数据集的能力)会变差。在强度学习中,参数的数目比训练数据集要大得多,但强度网络(DNN)却通常既能拟合好训练数据,又保持良好的泛化能力。你五种 违反直觉的问提被让我们都歌词 称为“明显悖论” (apparent paradox)。

一般来说,“平坦”简单的函数会比振荡复杂的函数有更好的泛化能力。DNN 从目标函数的低频成分开始英文了学习。当它学到训练数据的最高频率的随后,此时频率空间误差趋近于零。原因分析分析频率空间的误差等于实域空间的误差,所以它的学习也基本停止了。从前强度学习学到的函数的最高频率要能被训练数据给限制住。对于小的初始化,激活函数的光滑性很高,高频成分衰减好快了 了 ,从而使学习到的函数有更好的泛化能力。

对于低频占优的目标函数,小幅度的高频成分很容易受到噪音的影响。基于频率原则,提前停止训练(early-stopping)就能在实践中提高 DNN 的泛化能力。

但如文献 [3] 的从前例子所示(下图,图 3a 为目标函数,图 3b 为其离散傅里叶变换),对于层数和神经元数目足够多的 DNN,权重的谱范数(图 3c)基本不变。但如图 3d 所示的频率成分的相对误差,五个重要的频率峰值(图 3b 的大洞)仍然是从低频开始英文了收敛。对于你五种 请况,文献 [2] 对 DNN 的拟合函数的高频成分的上限估计在训练过程中基本不变,从而要能看出低频到高频学习的频率原则。

本文作者:许志钦

一般来说,在强度学习中,让我们都歌词 用来测试结论的例子原因分析分析是手写数字集(MNIST),原因分析分析是图像分类集(CIFAR)。这两类数据集相对实际应用的数据集未必原因分析分析足够简单,但在分析上,它们仍是非常复杂的,原因分析分析它们的输入维度仍然非常高(像素点的个数)。

经验上理解强度学习的泛化能力

频率原则(F-Principle)

猜你喜欢

三星w2018组装机怎么样?能不能买?

 我来答为你推荐:可选中三个 多多或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个问题。你对你你这种回答的评价是?本回答被提问者采纳展开完整篇 展开完整篇

2020-03-22

2018上半年电信三大运营商净利多少?

财报显示,上四天,中国移动净利润656.41亿元,同比增长4.7%;中国联通净利润25.8亿元,同比增长231.8%;中国电信净利润135.7亿元,同比增长8.1%。 经计算,

2020-03-22

为何风口过去之后,百果园反而要在无人零售上发力?

一次未果的试水百果园办公室无人货架尝试为啥悄然停止?這個次的无人零售,和上一次哪些不同?对百果园的整体战略来说,这次的无人零售尝试,又扮演着如保的角色?针对以上难题,百果园无人

2020-03-22

[LeetCode] Number of 1 Bits 位1的个数

本文转自博客园Grandyang的博客,原文链接:[LeetCode]Numberof1Bits位1的个数,如需转载请自行联系原博主。Forexample,the32-biti

2020-03-22

想买个thinkpad,那款的性价比高点。资金4k左右。

有点痛 推荐联想集团是1984年中科院计算所投资十五万元人民币,由11名科技人员创办,是一家在信息产业内多元化发展的大型企业集团,充足创新性的国际化的科技公司。从1996年刚

2020-03-22