转载

阿里iDST鄢志杰：深度学习不可一味强调大数据、大模型、大计算

12月10-12日， 2015中国大数据技术大会 将在北京召开。会议前夕，我们特采访了本次会议的深度学习分论坛演讲嘉宾 阿里巴巴iDST语音组高级专家鄢志杰 ，以期对其从事工作和演讲内容有进一步的了解。

鄢志杰将在12月11日下午的深度学习分论坛进行题为“ Deep Learning 助力客服小二:数据技术及机器学习在客服中心的应用 ”的主题演讲，分享基于DNN、CNN、RNN（LSTM）及其各种组合模型的语音识别、自然语言处理技术在客服领域的应用。

鄢志杰在接受采访时表示，他的分享内容将包括Deep Learning 判断小二对问题定位的一致性、采用Deep Learning自动识别用户问题等， iDST在数据技术及机器学习方面的尝试，已经在阿里巴巴集团及蚂蚁金服助力客服小二，向客服机器人的引入迈出了第一步。不过，他认为，客服机器人不是要取代人工，而是要学习人、帮助人。比如阿里巴巴客服中心的很多Machine Learning的工作，都是去学习客服小二是如何服务的，没有客服小二，学习无从入手。

谈到深度学习的挑战，鄢志杰表示，近年来在DL领域不管三七二十一加数据、加运算能力、增加模型规模的brute-force方法从某种意义上讲是相当成功的。DL在Feature Engineering上的成功也带来了似乎不需要再关注问题本身、不需要任何Domain Knowledge，只需要把Raw Feature扔进Deep Model训练一下就能打败历史上所有模型的假象——这恰恰只是说明了我们很多人对DL的理解还比较肤浅。他认为， DL目前的挑战之一就是需要重新去严肃的思考我们要解的问题、了解我们的模型、分析我们的数据，而不是一味的强调“大数据”、“大模型”、“大计算”。

此外，对于机器学习开源工具的选择，鄢志杰认为，工具就是工具，不必抱有“宗教信仰”，比较合适的态度也许是更关注你要解的问题，基于问题来选择工具。

阿里iDST鄢志杰：深度学习不可一味强调大数据、大模型、大计算 鄢志杰

阿里巴巴iDST语音组高级专家

鄢志杰，阿里巴巴 iDST(Institute of Data Science and Technologies)语音组高级专家。在加入阿里巴巴前，就职于微软亚洲研究院，任语音组主管研究员。毕业于中国科学技术大学讯飞语音实验室，获博士学位。研究领域主要包括语音识别、语音合成、说话人识别验证、OCR/ 手写识别、机器学习算法等。在语音及文本识别领域顶级学术期刊及会议发表多篇论文，长期担任语音领域顶级学术会议及期刊的专家评审，并拥有多项美国及PCT专利，目前是 IEEE senior member。其研究成果被转化并应用于微软公司及阿里巴巴集团的多项产品中。

以下为鄢志杰采访实录：

CSDN：请介绍一下您自己以及当前的主要工作。

鄢志杰： 我主要在阿里云iDST负责语音技术方面的工作，为集团和蚂蚁金服各个业务部门，以及外部客户提供各种与语音有关的服务，包括语音识别、语音合成、说话人识别/验证、对话系统等。由于语音领域是Deep Learning的最重要的试金石之一，我们也应用各种机器学习算法到更广泛的领域，如客服问题定位等等当中去。

CSDN： 在您的语音识别工作中采用了哪些DL模型？从这些模型在标准数据集上实现的精度，到实现在淘宝客服的实际应用，还需要做哪些方面的工作？

鄢志杰： 语音识别领域是DL最重要的应用领域之一，很多DL算法都首先在语音识别上得到实践。因此，我们所采用的DL模型也较多，包括DNN、CNN、RNN（LSTM）及其各种组合。当前语音识别研究的重心早已从学术界向工业界倾斜，因此通常所说的标准数据集一般规模较小，主要是为快速验证算法来使用。像客服语音识别这样的实际应用场景，还需要做以下几个方面的工作：

沉淀数据，构造feedback loop，即能够形成数据的闭环，将线上实际数据很快应用到模型迭代更新中去；
提高模型训练的周转率，降低训练时间，通过大规模并行计算实现高速DL模型训练；
构造高水平的云端线上服务，包括高效的解码器、自动部署、运维等等。

CSDN： 您的工作也涉及到文本分析，如何看待DL在文本分析领域的进展和前景？

鄢志杰： DL在文本领域有非常令人兴奋的进展。从早前的“看图说话”、“sequence-to-sequence翻译、语言生成”，到最近的“看图回答问题”等等，DL在文本上的应用正向纵深发展，应该说前景是很广阔的。我们自己也在这方面有一些工作，包括客服问题聚类、分类、对话理解、语言生成等。

CSDN： 基于数据技术和ML，您认为客服机器人技术将能够取代多少的人工工作？时间节点如何？

鄢志杰： 我个人有一个理念，就是永远不去取代人工，而是让客服机器人去学习人、帮助人。就像我们在客服中心的很多Machine Learning的工作，都是去学习客服小二是如何服务的，没有客服小二，学习无从入手。例如，我们会将客服小二的真实IVR服务进行语音识别，从沉淀下来的数据中去做Machine Learning，去做各种后续的工作。我认为客服机器人的价值在于可以减少人工，让客服中心可以随公司业务智能的扩展，而不是一味扩大人的规模，使得服务质量无法保证。

CSDN： 当前的开源DL工具越来越多，您尝试过哪些工具？最喜欢什么样的工具？最终选择的标准是什么？

鄢志杰： 我们拥抱开源。开源的、得到大家认可而发展起来的东西肯定是好东西。在语音领域目前最活跃的开源工具是Kaldi，是微软的前同事Povey从几年前开始一步步做起来、逐渐变得流行的。我们也是通过改造Kaldi来搭建我们系统的某些环节的，改造的工作一方面是使之适应工业界需求（如大规模的GPU多机多卡训练）、一方面是基于它的codebase来快速的做创新性研究。我认为工具就是工具，不必抱有“宗教信仰”，比较合适的态度也许是更关注你要解的问题，基于问题来选择工具。这也正是我们开发GPU多机多卡 Machine Learning Middleware的原因。这个Middleware的功能就是把各种各样的开源DL训练工具通过很少的修改，就变成可以利用多机多卡的大规模并行化训练工具。这样一来，我们就可以迅速消化、吸收，并改造层出不穷的新的DL开源工具。

CSDN： DL的领军人物Yann LeCun曾经多次谈到DL的挑战，如推理机制、无监督学习等等，您如何看待DL的挑战？

鄢志杰： DL近年来发展得太快了，也太热了。有一些brute-force的研究方法太过成功，容易给人造成误导。传统的机器学习讲究对问题的分析、对数据本身的理解、“Occam's razor”是研究者乐于奉行的原则。我们看到近年来在DL领域，不管三七二十一加数据、加运算能力、增加模型规模的brute-force方法从某种意义上讲是相当成功的。DL在Feature Engineering上的成功也带来了似乎不需要再关注问题本身、不需要任何Domain Knowledge，只需要把Raw Feature扔进Deep Model训练一下就能打败历史上所有模型的假象。我个人认为这恰恰只是说明了我们很多人对DL的理解还比较肤浅。多年后回过头来看，也许会发现，现在的我们只不过是正处在DL野蛮发展的初级阶段而已。

在我所在的语音领域，现在要找一个篇非DL的论文已经很难了。今年开InterSpeech国际会议的时候，声学所一名同学做Oral Presentation，一上台就说今天我全篇没有DL，没想到赢得台下一片掌声。我觉得DL目前的挑战之一就是需要重新去严肃的思考我们要解的问题、了解我们的模型、分析我们的数据，而不是一味的强调“大数据”、“大模型”、“大计算”。

CSDN： 您对目前的DL硬件系统的满意度如何？对于DL的硬件平台的发展，您有什么期待？

鄢志杰： 很乐于看到Intel找到了一个不同以往的对手NVIDIA，此外也看到DL在其它一些硬件（如FPGA等）上的发展。因为DL的推动，硬件在这方面的运算能力、通讯能力近年来都得到了很大的进步，期待硬件厂商给我们更强大的支撑。

CSDN： 请谈谈您在这次大会上即将分享的话题。

鄢志杰： 我会介绍数据技术、Machine Learning在阿里巴巴集团和蚂蚁金服客服系统中的好几个很接地气的应用。我们通过自动语音识别将IVR系统的客服对话数据全部转换成文本，这些文本可以用于客服质检、用于提升客服小二对问题解答的一致性，还可以让机器学习客服人员是如何一步步定位用户的问题，并做出解答的。客服本来是一个非常传统的领域，对客服系统刻板的印象就是人海战术、手写规则等等。但由于机器学习的加入，这个领域正发生奇妙的变化。新一代的客服背后站着的是数据科学家，现在讲的都是Data-driven、Deep Learning等等。这些尝试应该说只是一个开始，是我们后续通向机器人客服的必由之路。

CSDN： 哪些听众最应该了解您所分享的主题？这些话题可以帮助听众解决哪些问题？

鄢志杰： 一些对语音识别、文本分析、自然语言处理等DL话题感兴趣的听众应该会想来听听。我希望给大家一些全新的角度——原来DL还可以帮助客服这样的传统领域。

CSDN： 您最希望在BDTC上听到什么样的分享话题？

鄢志杰： 最新的来自Machine Learning Community的声音，以及DL的一些落地。

90+位讲师，16大分论坛，Databricks公司联合创始人、Apache Spark首席架构师辛湜，Hadoop、HBase和Thrift项目的PMC成员和Committer、Kudu的发明人Todd Lipcon等海外专家将亲临 2015中国大数据技术大会。余票已然不多，预购从速。

正文到此结束