转载

深度学习零基础进阶第四弹｜干货分享

雷锋网 (公众号：雷锋网) 曾编译了《干货分享 | 深度学习零基础进阶大法！》系列，相信读者一定对深度学习的历史有了一个基本了解，其基本的模型架构（CNN/RNN/LSTM）与深度学习如何应用在图片和语音识别上肯定也不在话下了。今天这一部分，我们将通过新一批论文，让你对深度学习在不同领域的运用有个清晰的了解。由于第三部分的论文开始向细化方向延展，因此你可以根据自己的研究方向酌情进行选择。雷锋网对每篇论文都增加了补充介绍。这一弹主要从 自然语言处理 以及 对象检测 两方面的应用进行介绍。

本文编译于外媒 github，原文标题《Deep Learning Papers Reading Roadmap》，原作者 songrotek。

1. NLP（自然语言处理）

Antoine Bordes 等人撰写了论文《Joint Learning of Words and Meaning Representations for Open-Text Semantic Parsing》。通常来说，模拟是减轻强化学习的高样本复杂性的好策略。从科学方法论上看，对于反事实的场景，模拟的环境是数据集的模拟，因此它们可以使用共同的指标，允许重复性实验和创新民主化。Antoine Bordes 主张使用一个可实现的模拟问题的集合（对于多种问题，哪一种完美的性能是可能实现的，哪一种能表现出明显不同的能力。）在这篇论文中，你可以对这个问题有所了解。

[1] https://www.hds.utc.fr/~bordesan/dokuwiki/lib/exe/fetch.php?id=en%3Apubli&cache=cache&media=en:bordes12aistats.pdf

词嵌入是目前无监督学习的成功应用之一。它们最大的好处无疑是它们不需要昂贵的人工标注，而是在从未标注的现成大数据集中派生的。然后预训练的词嵌入就可以运用在仅使用少量有标注数据的下游任务中了。《Distributed representations of words and phrases and their compositionality 》是 Mikolov 等人编著的论文。其中介绍了 2013 年创立的 word2vec，这是一个允许无缝训练和使用预训练嵌入的工具套件。

[2] http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf

这是由 Sutskever 等人编写的《Sequence-to-Sequence Learning with Attentional Neural Networks（使用注意神经网络的序列到序列学习）》。2014 年，seq2seq 的神经网络模型开始用于机器翻译。在带有（可选）注意（attention）的标准 seq2seq 模型的 Torch 实现中，其编码器-解码器（encoder-decoder）模型是LSTM。编码器可以是一个双向 LSTM。此外还能在字符嵌入（character embeddings）上运行一个卷积神经网络然后再运行一个 highway network，从而将字符（而不是输入的词嵌入）作为输入来使用。

这是 Ankit Kumar 所写的《 Ask Me Anything: Dynamic Memory Networks for Natural Language Processing》，其中介绍了应用偶发性修正存储的想法，期望模型能够借此学到一些逻辑推理的能力。论文比较有趣。

[4] https://arxiv.org/abs/1506.07285

Yoon Kim 所写的《Character-Aware Neural Language Models》。论文提出一个仅建立在字符输入上的一个神经语言模型（NLM），预测还是在词水平上进行。当输入一个LSTM循环神经网络语言模型（RNN-LM）时，该模型在字符上启用了一个卷积神经网络（CNN），也可选择让该CNN的输出通过一个 Highway Network，这样就能提升表现。

[5] https://arxiv.org/abs/1508.06615

Jason Weston 等人所写的《Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks》，内容主要针对 bAbI 数据集。

[6] https://arxiv.org/abs/1502.05698

Google DeepMind 团队在 NIPS 2015 发表了一篇题为 “Teaching Machines to Read and Comprehend” 的论文，这篇论文想解决的问题是：如何让计算机回答提问。具体来说，输入一篇文章（d）和一句提问（q），输出文章中的一个词组，作为回答（a）。

[7] https://arxiv.org/abs/1506.03340

在许多自然语言处理任务中起到主导地位的方法是循环神经网络（RNN，尤其是长短时间记忆网络，LSTM）和卷积神经网络（ConvNets）。然而，相比于深度卷积网络在计算机视觉领域中取得的巨大成功，这些网络结构还是太过浅层了。

Alexis Conneau 等人所写的论文《Very Deep Convolutional Networks for Natural Language Processing》提出了一种直接在字符级别上进行文本处理的新结构，但仅仅用了很少的卷积和池化操作。实验结果表明模型的性能与网络深度成正比，一直用到 29 层卷积层，在多个文本分类任务中取得了重大的效果提升。据了解，这是深度卷积网络第一次应用在自然语言处理任务中。

[8] https://arxiv.org/abs/1606.01781

自动文本处理在日常计算机使用中相当关键，在网页搜索和内容排名以及垃圾内容分类中占重要组成部分，当它运行的时候你完全感受不到它。随着在线数据总量越来越大，需要有更灵活的工具来更好的理解这些大型数据集，来提供更加精准的分类结果。

为了满足这个需求，Facebook FAIR 实验室开源了资料库 fastText，声称相比深度模型，fastText 能将训练时间由数天缩短到几秒钟。fastText 能针对文本表达和分类帮助建立量化的解决方案。论文《Bag of Tricks for Efficient Text Classification》介绍了 fastText 的具体实现原理。

[9] https://arxiv.org/abs/1607.01759

2. Object Detection （对象检测）

Ross Girshick 所写的《Rich feature hierarchies for accurate object detection and semantic segmentation》。Ross Girshick 是首个提出的基本参数区域卷积神经网络的学者。五星推荐。

[1] http://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf

计算科学家一直在努力建立世界上最精确的计算机视觉系统，但是过程困难而缓慢。微软研究院在论文《Spatial pyramid pooling in deep convolutional networks for visual recognition》中介绍了，在保持准确性不变的条件下，微软研究团队是如何将深度学习目标检测系统加速了到 100 倍的。

[2] https://arxiv.org/pdf/1406.4729.pdf

选自 2015 年 IEEE 国际大会上 CV 领域的论文集，介绍了图像识别领域最先进的框架 Faster R-CNN 相关知识。

[3] https://pdfs.semanticscholar.org/8f67/64a59f0d17081f2a2a9d06f4ed1cdea1a0ad.pdf

任少卿是世界上最广泛使用的物体检测框架 Faster RCNN 的提出者。本篇论文《Faster R-CNN: Towards real-time object detection with region proposal networks》是由他主笔而成。

[4] http://papers.nips.cc/paper/5638-analysis-of-variational-bayesian-latent-dirichlet-allocation-weaker-sparsity-than-map.pdf

Redmon 和 Joseph等合著《You only look once: Unified, real-time object detection》，提出了 YOLO 算法，号称和 Faster RCNN 精度相似但速度更快。五星推荐。

[5] http://homes.cs.washington.edu/~ali/papers/YOLO.pdf

论文《SSD: Single Shot MultiBox Detector》介绍了在 arXiv上出现的算法 Single Shot MultiBox Detector （SSD）。它是 YOLO 的超级改进版，吸取了 YOLO的精度下降的教训，同时保留速度快的特点。SSD 能达到 58 帧每秒，精度有 72.1。速度超过 Faster R-CNN 有 8 倍，但也能达到类似的精度。

[6] https://arxiv.org/pdf/1512.02325.pdf

Via github ，关于深度学习其他领域的应用，还请关注雷锋网后续文章。

雷锋网版权文章，未经授权禁止转载。详情见转载须知。