浅谈深度学习的基本概念和方法

IT资讯 2017/7/12

本文旨在提供直观简明的深度学习引导，涵盖深度学习的基本概念，而不涉及很多数学和理论细节。当然如果要做更深入的研究，数学肯定是必不可少的，但是本系列主要还是用图片和类比等方式，帮助初学者快速建立大局观。

核心概念

机器学习(Machine Learning)

在机器学习中，我们(1)读取数据，(2)训练模型，(3)使用模型对新数据做预测。训练可以看作是当模型拿到新数据的时候、逐步学习一个的过程。在每一步，模型做出预测并且得到准确度的反馈。反馈的形式即是某种衡量标准(比如与正确解的距离)下的误差，再被用于修正预测误差。

学习是一个在参数空间里循环往复的过程：当你调整参数改正一次预测，但是模型却可能把原先对的又搞错了。需要很多次的迭代，模型才能具有良好的预测能力，这一“预测-修正”的过程一直持续到模型再无改良空间。

特征工程(Feature Engineering)

特征工程从数据中提取有用的模式，使之更容易被机器学习模型进行分类。比如，把一堆绿色或蓝色的像素区域作为标准，来判断照片上是陆生动物还是水生动物。这一特征对于机器学习模型十分有效，因为其限制了需要考虑的类别数量。

在多数预测任务中，特征工程是取得好结果的必备技能。然而，因为不同的数据集有着不同的特征工程方法，所以很难得出普遍规律，只有一些大概的经验，这使得特征工程更是一门艺术而非科学。一个数据集里极其关键的特征，到了另一个数据集里可能没有卵用(比如下一个数据集里全是植物)。正因为特征工程这么难，才会有科学家去研发自动提取特征的算法。

很多任务已经可以自动化(比如物体识别、语音识别)，特征工程还是复杂任务中最有效的技术(比如Kaggle机器学习竞赛中的大多数任务)。

特征学习(Feature Learning)

特征学习算法寻找同类之间的共有模式，并自动提取用以分类或回归。特征学习就是由算法自动完成的特征工程。在深度学习中，卷积层就极其擅长寻找图片中的特征，并映射到下一层，形成非线性特征的层级结构，复杂度逐渐提升(例如：圆圈，边缘 -> 鼻子，眼睛，脸颊)。最后一层使用所有生成的特征来进行分类或回归(卷积网络的最后一层，本质上就是多项式逻辑回归)。

深度学习算法学得的层级特征

图1：深度学习算法学得的层级特征。

每个特征都相当于一个滤波器，

用特征(比如鼻子)去过滤输入图片。

如果这个特征找到了，相应的单元就会产生高激励，

在之后的分类阶段中，就是此类别存在的高指标。

图1显示了深度学习算法生成的特征，很难得的是，这些特征意义都很明确，因为大多数特征往往不知所云，特别是循环神经网络、LSTM或特别深的深度卷积网络。

深度学习(Deep Learning)

在层级特征学习中，我们提取出了好几层的非线性特征，并传递给分类器，分类器整合所有特征做出预测。我们有意堆叠这些深层的非线性特征，因为层数少了，学不出复杂特征。数学上可以证明，单层神经网络所能学习的最好特征，就是圆圈和边缘，因为它们包含了单个非线性变换所能承载的最多信息。为了生成信息量更大的特征，我们不能直接操作这些输入，而要对第一批特征(边缘和圆圈)继续进行变换，以得到更复杂的特征。

研究显示，人脑有着相同的工作机理：视锥细胞接受信息的第一层神经，对边缘和圆圈更加敏感，而更深处的大脑皮层则对更加复杂的结构敏感，比如人脸。

层级特征学习诞生在深度学习之前，其结构面临很多严重问题，比如梯度消失——梯度在很深的层级处变得太小，以致于不能提供什么学习信息了。这使得层级结构反而表现不如一些传统机器学习算法(比如支持向量机)。

为解决梯度消失问题，以便我们能够训练几十层的非线性层及特征，很多新的方法和策略应运而生，“深度学习”这个词就来自于此。在2010年代早期，研究发现在GPU的帮助下，激励函数拥有足以训练出深层结构的梯度流，从此深度学习开始了稳步发展。

深度学习并非总是与深度非线性层级特征绑定，有时也与序列数据中的长期非线性时间依赖相关。对于序列数据，多数其他算法只有最后10个时间步的记忆，而LSTM循环神经网络(1997年由Sepp Hochreiter和Jürgen Schmidhuber发明)，使网络能够追溯上百个时间步之前的活动以做出正确预测。尽管LSTM曾被雪藏将近10年，但自从2013年与卷积网络结合以来，其应用飞速成长。

上一篇:大数据与深度学习如何让你在下班路上少堵一会儿？
下一篇:当知识图谱“遇见”深度学习

中国· 上海

添加微信咨询

关键词

上海谷谷网络科技有限公司

办公室：上海市浦东新区郭守敬路351号

关于我们 | 联系我们

top
在线咨询
添加微信咨询