转载

发表于 2015年05月22日
浏览 (889)
评论 (0)

斯坦福大学深度学习与自然语言处理第一讲：引言

斯坦福大学在三月份开设了一门“深度学习与自然语言处理”的课程： CS224d: Deep Learning for Natural Language Processing ，授课老师是青年才俊 Richard Socher ，他本人是德国人，大学期间涉足自然语言处理，在德国读研时又专攻计算机视觉，之后在斯坦福大学攻读博士学位，拜师NLP领域的巨牛 Chris Manning 和Deep Learning 领域的巨牛 Andrew Ng ，其博士论文是《 Recursive Deep Learning for Natural Language Processing and Computer Vision 》，也算是多年求学生涯的完美一击。毕业后以联合创始人及CTO的身份创办了 MetaMind ，作为AI领域的新星创业公司，MetaMind创办之初就拿了800万美元的风投，值得关注。

回到这们课程CS224d,其实可以翻译为“面向自然语言处理的深度学习（Deep Learning for Natural Language Processing）”，这门课程是面向斯坦福学生的校内课程，不过课程的相关材料都放到了网上，包括课程视频，课件，相关知识，预备知识，作业等等，相当齐备。课程大纲相当有章法和深度，从基础讲起，再讲到深度学习在NLP领域的具体应用，包括命名实体识别，机器翻译，句法分析器，情感分析等。Richard Socher此前在ACL 2012和NAACL 2013 做过一个Tutorial， Deep Learning for NLP (without Magic) ，感兴趣的同学可以先参考一下: Deep Learning for NLP (without Magic) – ACL 2012 Tutorial – 相关视频及课件。另外，由于这门课程的视频放在Youtube上，@爱可可-爱生活老师维护了一个网盘链接： http://pan.baidu.com/s/1pJyrXaF ，同步更新相关资料，可以关注。

第一讲：引言-自然语言处理与深度学习简介(Intro to NLP and Deep Learning)

推荐阅读材料：

线性代数相关知识点回顾：[ Linear Algebra Review ]
概率相关知识点回顾：[ Probability Review ]
凸优化相关知识点回顾: [ Convex Optimization Review ]
优化相关的另一篇介绍（来自于斯坦福CS231课程资料），随机梯度下降相关[ More Optimization (SGD) Review ]
语义向量空间模型的一篇综述[ From Frequency to Meaning: Vector Space Models of Semantics ]
课程第一部分的Notes，涉及第一讲和第二讲[ Lecture Notes 1 ]
python及numpy简介[ python tutorial ]
第一讲Slides[ slides ]
第一讲视频[ video ]

以下是第一讲的相关笔记，主要参考自课程的slides，视频和其他相关资料。

什么是自然语言处理（NLP）

自然语言处理是一门交叉学科，包括计算机科学，人工智能和语言学
目标：让计算机去处理或“理解”自然语言, 完成一些有用的任务例如问答系统，机器翻译
完全理解或者表示语言的意义（甚至去定义它）都是一个虚幻的目标
完美的理解语言是一个“ AI-complete ”的问题

自然语言处理的层次

斯坦福大学深度学习与自然语言处理第一讲：引言

自然语言处理的应用

应用范围从简单到复杂
拼写检查, 关键词提取&搜索，同义词查找&替换
从网页中提取有用的信息例如产品价格，日期，地址，人名或公司名等
分类，例如对教科书的文本进行分级，对长文本进行正负情绪判断
机器翻译
口语对话系统
复杂的问答系统

工业届里的NLP应用

搜索引擎
在线广告
自动的或辅助的翻译技术
市场营销或者金融交易领域的情感分析
语音识别

NLP为什么这么难

语言在表达上就很复杂，使用的时候要综合考虑使用情境
Jane hit June and then she [fell/ran].
歧义问题：“I made her duck”

什么是深度学习（DL）

深度学习是机器学习的一个分支
大多数机器学习方法很有效主要依靠人工精心设计的特征，例如下表是一个命名实体识别任务中设计的特征模板(Finkel, 2010)

斯坦福大学深度学习与自然语言处理第一讲：引言

最终这些机器学习问题会变成优化问题：优化这些特征权重以达到最好的预测效果

机器学习 vs 深度学习

斯坦福大学深度学习与自然语言处理第一讲：引言

什么是深度学习（DL）续

表示学习 or 表达学习（Representation Learning）尝试自动的学习合适的特征及其表征
深度学习（Deep Learning) 算法尝试学习（多层次）的表征以及输出
从一个“原生”的输入x(例如“单词”）

斯坦福大学深度学习与自然语言处理第一讲：引言

深度学习的历史

这门课主要关注至今为止在解决NLP问题上有效果的深度学习技术
关于深度学习模型的相关历史，推荐参考《 Deep Learning in Neural Networks: An Overview 》

探索深度学习的原因

人工设计的特征常常定义过多，不完整并且需要花费大量的时间去设计和验证
自动学习的特征容易自适应，并且可以很快的学习
深度学习提供了一个弹性的，通用的学习框架用来表征自然的，视觉的和语言的信息。
深度学习可以用来学习非监督的（来自于生文本）和有监督的（带有特别标记的文本，例如正向和负向标记）
在2006年深度学习技术开始在一些任务中表现出众，为什么现在才热起来？

深度学习技术受益于越来越多的数据
更快的机器与更多核CPU/GPU对深度学习的普及起了很大的促进作用
新的模型，算法和idea层出不穷

通过深度学习技术提升效果首先发生在语音识别和机器视觉领域，然后开始过渡到NLP领域

面向语音识别的深度学习

“深度学习”在大数据集上的第一个突破性进展发生在语音识别领域
Paper： Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition Dahl et al. (2010)

斯坦福大学深度学习与自然语言处理第一讲：引言

面向计算机视觉的深度学习

很多深度学习研究小组把大量的精力放在计算机视觉上（直到现在也是）
突破性的Paper: ImageNet Classification with Deep Convolutional Neural Networks by Krizhevsky et al. 2012

斯坦福大学深度学习与自然语言处理第一讲：引言

Deep Learning + NLP = Deep NLP

综合使用一些深度学习的方法来解决NLP的相关问题
近几年在NLP的一些应用领域效果有了较大的提升

层次：语音，词形，句法，语义
应用：机器翻译，情感分析，问答系统

音位学层次的表示

传统的方法：音素

斯坦福大学深度学习与自然语言处理第一讲：引言

深度学习：通过声音特征并将这些特征表示为向量直接来预测音素（或词语）

形态学层次的表示

传统的方法：语素，例如前缀，词干，后缀等
深度学习：

每个语素都用向量表示
神经网络用于向量的两两合并
Thang et al. 2013

斯坦福大学深度学习与自然语言处理第一讲：引言

句法层次的表示

传统的方法：将一个短语或句子划分到多个句法标记，例如NP，VP等

斯坦福大学深度学习与自然语言处理第一讲：引言

深度学习

每个单词或者短语都是一个向量
神经网络用于向量的两两合并
Socher et al. 2011

斯坦福大学深度学习与自然语言处理第一讲：引言

语义层次的表示

传统的方法： Lambda算子 or Lambda演算 (Lambda calculus)

非常精细的函数设计
需要指定其他函数的输入
没有相似性的概念或者模糊语言

斯坦福大学深度学习与自然语言处理第一讲：引言

深度学习

每个单词或者短语或者逻辑表达式都是一个向量
神经网络用于向量的两两合并
Bowman et al. 2014

斯坦福大学深度学习与自然语言处理第一讲：引言

NLP应用：情感分析

传统的方法：精选的情感词典+词袋模型（忽略词序）+人工设计的特征（很难覆盖所有的信息）
深度学习：和上述词素，句法和语义相似的深度学习模型–> RNN
Demo: http://nlp.stanford.edu/sentiment/

斯坦福大学深度学习与自然语言处理第一讲：引言

NLP应用：问答系统

传统的方法：用了非常多的特征工程去获取相关的知识，例如正则表达式，Berant et al. (2014)

斯坦福大学深度学习与自然语言处理第一讲：引言

深度学习：和上述词素，句法，语义，情感分析相似的深度学习模型
知识可以储备在向量中

斯坦福大学深度学习与自然语言处理第一讲：引言

NLP应用：机器翻译

过去尝试过很多层次的机器翻译方法
传统的机器翻译系统是一个非常大的复杂系统
可以思考一下在深度学习中中间语（interlingua）对于翻译系统是如何起作用的？

斯坦福大学深度学习与自然语言处理第一讲：引言

深度学习：

源句子首先映射为向量，然后在输出的时候进行句子生成

斯坦福大学深度学习与自然语言处理第一讲：引言

Sequence to Sequence Learning with Neural Networks by Sutskever et al. 2014
方法很新但是可以替换传统非常复杂的机器翻译架构

可以发现所有NLP层次的表示都涉及到向量（Vectors), 下一讲将讲到如何来学习词向量以及这些向量表示了什么？

斯坦福大学深度学习与自然语言处理第一讲：引言

注：原创文章，转载请注明出处“我爱自然语言处理”：http://www.52nlp.cn

本文链接地址：斯坦福大学深度学习与自然语言处理第一讲：引言

正文到此结束

所属分类：编程技术

本文标签： UI CTO 突破金融空间翻译搜索引擎创始人正则表达式 cat 创业公司自适应产品时间同步学生大数据语音识别广告 IDE 快的创业数据智能
版权声明： 本文为互联网转载文章，出处已在文章中说明(部分除外)。如果侵权，请联系本站长删除，谢谢。
本文海报： 生成海报一生成海报二

热门推荐

openfire数据库安装指南

浏览(14,862) 评论(0)
Caffe 深度学习框架上手教程

浏览(11,160) 评论(0)
ReactiveCocoa入门教程：第一部分

浏览(11,970) 评论(0)
开源HIDS-OSSEC使用实例:监测CC攻击

浏览(11,872) 评论(0)
Decorators in ES7

浏览(16,491) 评论(4)
用Electron（Atom编辑器的兄弟项目）开发桌面应用

浏览(29,462) 评论(0)
Windows下JetBrains CLion中文输出乱码的解决方法

浏览(12,914) 评论(1)
同步-@synchronized, NSLock, pthread, OSSpinLock性能比较

浏览(11,830) 评论(0)
【开班了】JAVA培训班正式招生

浏览(7,960) 评论(12)
Seaweedfs之Volume读请求重定向

浏览(26,125) 评论(3)

相关文章

阿里云首购8折

Loading...

其他链接

关于本站

本站定位：个人技术类博客

本站作用：写博客、记日志、闲聊扯淡鼓捣技术。

问题交流

[HBLOG]公众号

HBLOG

HBLOG