转载

深度学习简史

点击上方蓝色“ 网路冷眼” 可以订阅哦!

深度学习简史

导读:一部深度学习的简史,虽然不那么波澜壮阔,但其发展也是一波三折,艰难而行。随着AlphaGo掀起的人工智能新浪潮,人工智能的春天才刚刚开始。希望本文为大家了解深度学习的历史,理解深度学习的本质带来帮助。

深度学习是机器学习的分支,采用算法来处理数据和模仿的思维过程,或者开发高层抽象。深度学习(DL)使用算法层来处理数据,理解人类语音,并且以视觉方式识别对象。信息通过每个层,上一层的输出为下一层提供输入。网络中的第一层称为输入层,而最后一层称为输出层。两者之间的所有层被称为隐藏层。每一层通常是包含一种激活函数的简单、统一的算法。

特征提取是深度学习的另一个方面。特征提取使用算法来自动地构建数据的有意义的“特征”,用于训练、学习和理解的目的。通常,数据科学家或程序员负责特征提取的工作。

深度学习的历史可以追溯到 1943 年,当 Walter Pitts 和 Warren McCulloch 创建基于人类大脑的神经网络计算机模型。他们使用算法和数学的组合,他们称之为“阈值逻辑”来模拟思维过程。从那时起,深度学习开始稳步发展,其发展过程只有两个重大突破。这两个突破却与臭名昭著的人工智能“冬天”密切相关。

Henry J. Kelley 在 1960 年因奠定连续反向传播模型的基础享有盛誉。1962年,Stuart Dreyfu 开发了仅基于链式法则简单的版本。虽然反向传播(用于训练目的误差反向传播)的概念是在 20 世纪 60 年代初确实存在,但是却笨拙、效率低,而且直到 1985 年才大显身手。

1965 年,开发深度学习算法最早的努力来自 Alexey Grigoryevich Ivakhnenko (开发数据处理的分组方法)和 Valentin Grigor ʹ evich Lapa (控制论和预测技术的作者)。他们用多项式(复杂的方程式)模型实现功能,即进行统计学分析。从每个层,最好的统计选择的特征然后转发到下一层(这是一个缓慢的、手动的过程)。

在 20 世纪 70 年代,AI 第一个冬天来临,研究资金难以为继。缺乏资金的影响限制了 DL 和 AI 研究。幸运的是,有些人在没有资金的情况下依然进行研究。

Kunihiko Fukushima 首次使用“卷积神经网络”。Fukushima 设计了具有多个池和卷积层的神经网络。 1979 年,他开发了一个称为 Neocognitron 人工神经网络,它使用了分层的多层设计。这种设计让计算机“学习”识别视觉模式。网络类似于现代版本,但是训练有在多个层中的重复激活的增强策略,其随着时间的增加获得强度。此外,Fukushima 的设计允许通过增加某些连接的“权值”来手动调整重要功能。

Neocognitron 中的许多概念仍在继续使用。使用自上而下的连接和新的学习方法已经让各种神经网络得以实现。当同时呈现多于一个模式时,选择性注意力模型(Selective Attention Model)可以通过将其注意力从一个移动到另一个来分离和识别单个模式。(在多任务环境下许多人使用同样的过程)。现代Neocognitron 不仅可以识别缺少信息的模式(例如,不完整的数字 5 ),而且还可以通过添加缺少的信息来完成图像。这可以被描述为“推断”。

反向传播,在训练深度学习模型中使用误差,在 1970 年得到显著发展。这是当Seppo Linnainmaa 写了他的硕士论文,包括反向传播的 FORTRAN 代码时才开始的。不幸的是,这个概念直到 1985 年才应用于神经网络。这是当Rumelhart,Williams 和 Hinton 证明在神经网络中的反向传播可以提供“有趣的”分布表示才实现的。在哲学上,这一发现揭示了认知心理学中人类理解是依赖于符号逻辑(计算主义)还是分布式表示(连接主义)的问题。 1989 年,Yann LeCun 在贝尔实验室提供了第一个反向传播的实际演示。他将卷积神经网络与反向传播结合到阅读“手写”数字上。这个系统最终被用来读取手写支票的数字。

这个时间也是AI第二个冬天(1985 年-90 年代)来临之际,这也影响了神经网络和深度学习的研究。各种过于乐观的个人夸大了人工智能的“直接”潜力,期望破灭,投资者出奇愤怒了。愤怒是如此强烈,人工智能被贬低到了“伪科学”地步。幸运的是,一些人仍然继续研究 AI 和 DL,并取得了一些重大进展。1995 年,Dana Cortes 和 Vladimir Vapnik 开发了支持向量机(映射和识别类似数据的系统)。Sepp Hochreiter 和 Juergen Schmidhuber 在 1997 年开发了用于递归神经网络的 LSTM(长时短期记忆)。

在 1999 年,当计算机处理数据速度越来更快,GPU(图形处理单元)被开发出来,深度学习的下一个重要的进化时代到来了。更快的处理,使用GPU处理图片,在 10 年的时间内将计算速度提高了 1000 倍。在这段时间内,神经网络开始与支持向量机竞争。虽然神经网络可能比支持向量机处理慢,但是神经网络使用相同的数据获得了更好的结果。神经网络还具有随着添加更多训练数据而继续改进的优点。

2000 年左右,消失的梯度问题(Vanishing Gradient Problem)出现了。发现在下层中形成的“特征”(课程)没有被上层学习,因为没有学习信号到达这些层级。这不是所有神经网络都有的基本问题,只是基于梯度的学习方法才有此问题。问题的根源是某些的激活函数。一些激活函数压缩它们的输入,从而以有些混乱的方式缩小输出范围。这就产生了在非常小的范围上映射的大面积的输入。在这些输入区域中,大的变化将被减小到输出的小变化,导致消失的梯度。解决这个问题的两个解决方案是逐层预训练和开发较长的短期记忆。

2001 年,META 集团(现称为 Gartner )的研究报告以三维方式描述了数据增长的挑战和机遇。该报告描述了随着数据源和类型的范围的增加,数据的数量增加了,数据的传递速度增加了。这是一个里程碑事件,标志着大数据准备发力。

2009 年,斯坦福大学的 AI 教授李飞飞(Fei-Fei Li)推出了 ImageNet,组装了一个超过 1400 万张标记图像的免费数据库。互联网现在和过去充满了未标记的图像。“训练”神经网络需要标记图像。李教授说,“我们的愿景就是大数据将改变机器学习的工作方式。数据驱动学习。”

到 2011 年,GPU 的速度已经显著增加,使得“没有”逐层预训练就可以训练卷积神经网络成为可能。随着计算速度的提高,深度学习在效率和速度方面具有显著的优势。一个例子是 AlexNet,卷积神经网络,其架构在 2011 年和 2012 年期间赢得了几个国际比赛。整流线性单元(Rectified linearunits)用于提高速度。

此外,在 2012 年,Google Brain 发布了一个名为“猫实验”(The Cat Experiment)的不寻常项目的结果。自由奔放的项目探索了“无监督学习”的难度。深度学习使用“监督学习”,意味着使用标记数据(从ImageNet的图像)训练卷积神经网络。使用无监督学习,卷积神经网络被给予未标记的数据,然后被要求寻找递归模式。

“猫实验”(The Cat Experiment )使用了一个分布在 1000 台电脑的神经网络。 从 YouTube 随机抽取一千万个“未标记”图像,显示给系统,然后让培训软件运行。 在训练结束时,发现最高层中的一个神经元对猫的图像强烈反应。该项目的创始人吴恩达(Andrew Ng)博士说:“我们还发现了一个对人脸反应非常强烈的神经元。”无监督的学习仍然是深度学习领域的一个重要目标。

“猫实验”在处理未标记图像方面的工作效率比它的前辈高出约70%。 然而,它认识到不到16%用于训练的对象,并且对旋转或移动的对象更糟糕。

目前,大数据的处理和人工智能的演进都依赖于深度学习。 深度学习仍在发展当中,需要更多创造性的想法。

原文:A Brief History of Deep Learning

http://www.dataversity.net/brief-history-deep-learning/

作者:Keith D.Foote

往期回顾 : 投行大佬高盛拥抱自动化,“职场之神”也倍感危机 ( 内有赠书福利,欢迎留言参加

在微信里长按二维码可以关注公众号“ 网路冷眼

深度学习简史

原文  http://mp.weixin.qq.com/s?__biz=MzI4NjYwMjcxOQ==&mid=2247483869&idx=1&sn=833d8bf04a55bb946555a78e0e6663bc&chksm=ebdb256ddcacac7b75b7dd58dd5b460f5db0aebf4845796e17c460d627be61c9cde8d0a25723#rd
正文到此结束
Loading...