【转载请注明出处】chenrudan.github.io
2016年1月20日Bengio在Quora上做了一次面向网友的问答,回答了83个问题,这里记录一下感兴趣的几个问题。因为不是全部翻译过来而是选取了一些我觉得有价值的内容,所以有的地方可能会失去原来的感觉,每个问题都附上了原文链接可以点击查看。目录如下:
Quora原文地址: Session with Yoshua Bengio
Yoshua Bengio: What is Deep Learning?
深度学习是在学习多层表达来帮助学习者完成感兴趣的任务,较高级别的表达会通过深层组合计算来获取更抽象的概念。
Yoshua Bengio: Where is deep learning research headed?
研究即探索,并不知道什么能够成功而是需要探索很多条路,因此以下是一些比较有挑战的方向。
Yoshua Bengio: What is the most exciting machine learning research paper you read in 2015?
Yoshua Bengio: How far along are we in understanding why deep learning works?
bengio认为我们已经有一定的了解基础了。我们知道表示学习、深层结构、卷积结构和递归结构的每个元素对应到某个函数的参数选择(或者说某种先验信息)。我们已经有理论解释为什么这些参数选择能够起到一个重要(指数)统计优势(即能够用更少的数据获得更高的正确性) On the Number of Linear Regions of Deep Neural Networks 。我们知道为什么在训练深度网络中的优化问题并不像以前认为的那样难以解决,即绝大多数的局部最小值也是很好的解。 Identifying and attacking the saddle point problem in high-dimensional non-convex optimization 、 The Loss Surfaces of Multilayer Networks
此外,在另外一个问题中,bengio认为当前的深度学习算法还有东西无法学到无法解决,但随着深度学习的逐渐发展,以后都能学到。
Yoshua Bengio: What are the open research areas in Deep Learning?
Yoshua Bengio: You have said that the main limitation of current machine learning algorithms is that they need too much data to learn. Can you elaborate on that?
人一生下来的前两年,孩子们能看到的数据实际上是没有label的,在幼年时代孩子们所接触到的自然语言比我们用来训练系统的要少的多。这是因为人类能够更好的利用少量的数据,bengio认为人类建造了一个关于这个世界的内在模型并且能够获取一些构成因果关系因子。这样能够让我们在某种假设条件下预测会发生什么,即使这些假设条件跟我们经历过的完全不一样。我们可能从来没有经历过一次车祸,但是我们能够在脑子里将它模拟出来。
(笔者:这个问题我保持怀疑态度,这里面举出来的例子个人认为并不合适,比如我们没有经历车祸但是我们看到过,所以我觉得模拟出来的也差不多是我们记忆中看到的车祸。而孩子们接触到的自然语言,也没有一个量化的标准说明它比网络用来训练的少)
Yoshua Bengio: Why is unsupervised learning important? What role does deep learning have in solving it?
深度学习是在学习表示,获取中间概念,特征和隐藏变量的统计依赖性。这些依赖是指监督学习中的输入到输出的依赖或者无监督学习中的观测变量之间的关系。监督学习会给电脑展示非常多的例子,这些例子中会出现某些概念,然后“教”电脑知道哪些概念对我们来说很重要。但是这并不是人们学习的方式,人们在接受新概念时不一定同时有label来告诉他们,例如成年人不会告诉孩子一张图中每个像素点是什么或者每张图中每个物体是什么,也不会告诉他们听到的句子中每个词的意思和语法结构。而从简单的观察中提取大量的信息是无监督正在做的。我们希望无监督能从少量的有lable数据发现所有的概念。
而科学家们也会进行无监督学习,比如他们在观察这个世界,想出一些有解释能力的模型,通过观察现象来测试它们,然后持续尝试改进围绕着我们的世界的因果模型。
Yoshua Bengio: What’s your opinion on Max Welling’s position paper “Are ML and Statistics Complementary”? Is ML is moving away from statistics due to deep learning?
Max总结了三个深度学习成功的原因:计算能力,大数据集,大模型。bengio加了第四条,powerful biases,它是指函数的参数选择,也可以认为是贝叶斯理论中的先验信息)。因为在深度学习中有很多的假设:假设有很多隐藏因子,假设有很多因子的组合,equivariance(?)和时间相干性假设(卷积网络),时间平稳的假设(递归网络)等。bengio同意max认为的解释数以亿计参数的意义是不现实的,但是能理解这些隐藏的或者显在的引入网络的先验信息。因此,仍然有很多关于深度学习的理论需要被挖掘,其中统计学会占有重要地位。
Yoshua Bengio: Can neural networks have a purely probabilistic interpretation for why they work?
可以这样理解,有监督深度学习在学习条件概率,无监督学习方法在估计数据生成的联合分布。但是由于它既包括统计问题又包括优化问题,所以为什么深度学习有效不是一个概率问题。
Yoshua Bengio: Apart from trying to reconstruct the input (as in Autoencoder), what other tasks could prove useful for unsupervised learning of deep networks?
Yoshua Bengio: Do you think that it’s possible for algorithms to extract useful information from what is generally disacarded as noise?
只有当噪声中真正存在某种潜在的统计结构时才可以。例如猫在听人讲话觉得是噪声,人听外语也会觉得是噪声。因此当构建合适的模型让噪声也变得结构化才能提取有用信息。