转载

专访搜狗+NMT+团队:神经机器翻译将消除跨语言沟通障碍

2016 年 5 月 19 日,搜狗正式上线英文搜索。搜狗英文搜索可提供跨语言检索功能,可自动将中文翻译成英文进行查询,再生成英文查询结果。对于不擅长英文的用户,可以节省很多「先翻后搜」的搜索时间;在 11 月的乌镇世界互联网大会上,搜狗展示了机器同传技术,可将演讲者的中文同步翻译成英文并实时上屏;12 月 21 日,搜狗英文搜索正式升级为搜狗海外搜索频道(overseas.sogou.com),并同步上线了搜狗翻译频道 (fanyi.sogou.com)。

专访搜狗+NMT+团队:神经机器翻译将消除跨语言沟通障碍

近三年来,「神经网络机器翻译技术」成为人工智能翻译主流。该技术通过「端到端」的方法将翻译平行语料进行映射,以「编码器—注意力机制—解码器」的结构,解决翻译问题。

自 2016 年 8 月搜狗 NMT 团队成立至今,其自主研发的「机器翻译·一期系统」基本搭建完成。近日,人工智能媒体《机器之心》对搜狗 NMT 团队进行了专访。搜狗搜索技术负责人许静芳、搜狗搜索机器翻译负责人翟飞飞、清华计算机系副教授刘洋,就「搜狗神经机器翻译」的优势、团队组建和技术拓展等问题,展开了深度的分享。

采访如下:

搜狗翻译可生成更流畅的翻译结果

机器之心:神经机器翻译(NMT)将整个输入句子视作翻译的基本单元,相比于之前的基于短语的翻译系统,除了所需的工程设计更少这个优点外,句子意思理解的精确度有哪些提升?

刘 洋:  NMT 有两个关键的技术很重要,一个是 gating,另外还有一个是 attention,这两个特别适合处理语言中长距离调序,比如中英文结构差异特别大,词语顺序存在全局变化,NMT 处理这种情况特别有优势,生成的译文要比传统的方式生成的译文流利很多,这是 NMT 很突出的特点。

翟飞飞: 在统计机器翻译中,我们使用调序模型来处理不同语言之间词序不同的问题。但在处理长距离调序时,由于搜索空间太大,调序模型很难做到有效建模,导致许多统计机器翻译系统生成的译文存在较多词序错误,难以看懂。但 NMT 的模型架构对处理长距离调序问题特别有效,生成的译文更为流利。

搜狗翻译有望实现「多场景即时对话翻译」

机器之心:在更高层次上自然语音处理上,实现两种语言的实时对话还需要多久?

专访搜狗+NMT+团队:神经机器翻译将消除跨语言沟通障碍

搜狗搜索技术负责人许静芳

许静芳: 我觉得这个会很快,当然有一个前提,就是提出什么样的要求,如果要求特别流畅,包括上下文的理解,那不一定能做到。但由于语言的障碍,至少可以从以前的不能交流变成现在能够辅助理解和交流,这个会非常快。在某些场景口语交互或者日常的生活场景上,达到非常流利地交流,我觉得这也是在一两年的时间内可以做得非常好的一件事情。

当然这里面也会涉及到更多的口语上的交互,又会和语音挂上钩,涉及到多种语音识别,包括和口音、设备关联在一起,会很复杂。但单纯在翻译这个层面,这个会非常快,现在已经做到有帮助。

专访搜狗+NMT+团队:神经机器翻译将消除跨语言沟通障碍

清华计算机系副教授刘洋

刘 洋: 我个人觉得在「多场景即时对话翻译」领域至少有两个挑战。从方法层来说,最难的就是语言歧义性问题,这是自然语言处理所最大的挑战。人类语言和机器语言不一样,机器语言要求精准、没有歧义,比如 C+,JAVA。但是自然语言的歧义性很高,比如英文词「bank」,既可能是指「银行」,也可能是指「堤岸」。口语交互过程中歧义现象很严重。

从数据层面来说,无论是语音识别、机器翻译还是语言合成,都是数据驱动的方法,系统性能严重依赖于标注数据的规模、质量和覆盖率。对于开放领域的即时对话翻译而言,目前还缺乏大规模、高质量、广覆盖的标注语料库。

搜狗翻译水平已部分超越 Google 等巨头

机器之心:通过深度学习来搭建的实时翻译技术与数据密不可分,搜狗的 NMT 在大型数据集上工作有哪些挑战?

许静芳: 我想这个挑战应该是对所有机器翻译团队都类似的一个有趣的现象是业内翻译做得好的团队大多来自搜索公司。搜索和翻译本身是密不可分的,这个密不可分首先是数据层面,语料的挖掘,搜索本身天然有优势,在这里面,其实都涉及很多自然语言处理、数据挖掘的问题,搜索积累的经验可以很快地应用到翻译上来。

机器之心:相较于谷歌和百度的神经机器翻译,搜狗这次发布的神经机器翻译有哪些差异性的特征?

许静芳: 首先,对翻译问题的理解、重视和投入问题,在不同的公司不同的阶段是有差异的。其次,聚焦在技术上面,NMT 从发展到应用在商业系统里也就这一、两年左右的事情,本身这个技术正处在非常快速的迭代的过程中。如果现在要去比较我们(搜狗)和百度、谷歌的差异,我们自己本身在翻译的模型,语料的挖掘,特别是深度学习模型很大,用的语料很多。在模型在分布式训练上,搜狗也有自己的创新。我们和谷歌最新的工作去对比,在某些方法上,可以看出我们比谷歌做得好,最终在中英两种语言互译的效果优于也验证了这个事情。搜狗比谷歌更有动力去做好翻译这件事情。

搜狗翻译技术持续改进,未来可期

机器之心:刚才谈到模型,现在 seq2seq+attention 的模型已经在 NMT 及其他众多 NLP 任务上取得了非常好的效果,我也注意到搜狗的神经网络做到了 5 层。之前有些论文提到了通过增加更多层的网络来取得更好的效果,您认为这个准确吗,通过不断增加网络层数来提升效果?

许静芳: 我觉得这是方法之一,但不是唯一的方法,而且层数变深了以后,在数据和模型训练,包括网络的结构和优化方法上,都应该去适配这样的网络结构,所以我觉得适当加深层数是一种有效的方法,但不是唯一的途径。

刘 洋: 增加层数肯定有帮助,能够提高模型的表达能力,但是层数增加的越多,训练的难度也越大,需要更先进的技术。

机器之心:这种模型(seq2seq+attention)在效果方面是否已经达到了上限,从而需要新的模型解决?

许静芳: 我觉得远远没有,从算法层面,这种网络的结构只是其中之一,包括损失函数的设置、先验知识连接、模型后处理等方面都有很多工作要做。

刘 洋: 肯定有提升空间。目前看来,有两个问题非常明显。第一个问题是漏词。很多用户反映神经机器翻译系统在生成译文时经常漏掉重要的词没有翻译,严重影响了译文的忠实度。

另一个问题是缺乏篇章一致性。目前的翻译都按照句子为基本单位进行翻译,没有考虑篇章层面的上下文信息,会导致翻译同一个篇章出现同一个词在不同句子中的译法不一样。

搜狗独创的「深度学习」训练模型

机器之心:除此之外,搜狗的 NMT 还有哪些正在应用的模型?

专访搜狗+NMT+团队:神经机器翻译将消除跨语言沟通障碍

搜狗搜索机器翻译负责人翟飞飞

翟飞飞: 目前很多通用的 NMT 相关方法我们都在使用,同时依托天工研究院,我们和清华的机器翻译团队也合作进行了很多模型技术上的探索,取得了不错的成果,翻译性能稳步提升。

刘 洋: 清华的机器翻译团队由孙茂松教授领导,我是技术负责人。在这次与搜狗合作研发机器翻译系统的过程中,我们多年积累的技术和经验得到充分体现。另外,我们也受到最新的前沿技术的启发,如生成对抗网络和 zero-shot learning。相关的技术目前正在申请专利和撰写论文,预计不久会公开。

机器之心:不同语言的语料规模差别很大,英文中的语料非常多,但中文语料就显得非常少。请问,是否能将 NMT 的研究成果应用在不同语言语料构建上,从而提升其他语言 NLP 研究水平?

翟飞飞: 我个人觉得是可以的,比如现在有各种各样的工作用来自动生成训练语料,但具体怎么操作,还要针对不同的任务,生成的数据能不能拿来使用,也需要经过评测之后,才能判定。。

机器之心:搜狗的 NMT 有应用在外部的对准模型吗?

翟飞飞: 外部对准模型是一个相对比较通用的技术,我们也在使用,同时也在探索其他的相关技术。

机器之心:在哪些具体场景,搜狗 NMT 的表现会比较好?

许静芳:  搜狗的机器翻译整体来说有非常好的调序能力,翻译译文流畅,利于理解。英文我们利用翻译的主场景是跨语言检索,所以书面语言的翻译效果比口语还要更好一些,英翻中比中翻英效果的领先优势更突出。

四个月上线,搜狗翻译打通华语世界与英语世界

机器之心:这次根据机器翻译推出了海外搜索,国内获取英文信息一直是非常困难的事情,川总在演讲中也提到过这个。用先进的机器翻译技术切入这个刚需变成产品,而这个产品又会因为用户频繁使用来产生更多数据并优化技术。这可能是我们目前所看到的机器翻译技术最恰当的产品形态。当初我们是怎么想到这种产品思路的?以及海外搜索和机器翻译的良好互动将实现什么样的一种目标?

 许静芳: 海外搜索的前身叫英文搜索,是 2016 年 5 月份发的一款产品。有几个背景,首先全世界的信息 10% 是中文,90% 是英文。不管是国情还是文化,英文的质量在某些领域是明显高于中文的质量,并且平均水平还是高于中文的水平。其次国人随着各方面的进步,有非常迫切打开眼界与国际接轨的需求。世界是平的,有这样的需求存在。

搜狗 5 月份发布英文搜索是让用户搜索更优质的英文内容。由于各种原因,国内并没有特别好用的英文搜索,搜狗英文搜索是将优质的英文信息引入,给大家提供这样的入口,才能接触到这样的信息。在 5 月份上线的时候就附带一个小的功能,举个例子,在爆发魏则西的事件的时候,大家要查滑膜肉瘤,查细胞免疫疗法,大家知道中文的概念,而且也明白,更权威性的信息与知识在国外。但是当用户在用搜索英文信息的时候,首先遇到的第一个门槛就是不知道如何用英文拼写出」滑膜肉瘤」,」细胞免疫疗法」。

所以搜狗英文搜索当时就有一个功能是允许用户用中文查询词,通过机器翻译自动翻译成英文查询词,再找到英文信息。当时面向的用户,是英文相对还可以,但在一些专业术语上需要补足的用户,尤其在不太熟悉的领域,构建英文表达很困难。但是如果返回英文结果,能读懂但比中文结果要困难。

这个功能上线以后,在这个主打英文语言的搜索频道,中文的查询词占 20% 以上,而且随着时间的推移,还在逐步的提升。可以说这样的功能是很受用户欢迎,所以我们想把目标用户范围扩得更大一点,英文水平再差一点的同学,也能帮助他去阅读。进一步想法:把搜索结果能够翻译成中文,让不懂英文的用户在这里基本能看懂;懂英文的,借助机器翻译,也能更快到去找到他想要的信息。所以海外搜索的想法是在英文搜索发布不久,就已经萌生出来的,只不过翻译很难,搜索也很难,要把这两件事结合在一起,是难上加难。我们在英文搜索发布之后,大概花了四个月左右的时间,在建立团队的基础上,首先构建自己自主的机器翻译的能力,而且机器翻译的第一场景就是跨语言检索。

机器之心:现在有很多企业都和高校实验室建立了非常紧密的合作关系,能介绍下搜狗在 NMT 上和清华大学的合作吗?

许静芳: 这是非常成功的校企合作的案例。2016 年搜狗捐赠清华大学打造天工智能计算研究院,机器翻译也是天工智能研究院下面的第一个合作项目,将搜狗的技术能力与清华刘洋教授的机器翻译团队的长期积累相结合充分发挥两个团队各自的优势,最终也取得非常好的效果。机器翻译的技术门槛很高,业内很多团队做机器翻译都是一年以后上线,或者两年以后再上线的,我们其实只花了四个月,这也体现搜狗在人工智能上的优势与决心。

天工智能计算研究院是 2016 年成立的,但是这个研究院的前身是搜狗和清华计算机系的搜索技术联合实验室,这个实验室已经有 9 年的时间。搜狗一直以都非常支持学术界的研究,我们对学术界开放了最多的数据集,也有着广泛的合作,可以说搜狗在这方面是推动了国内相关方向的发展,也推动了全世界关于中文的研究。2016 年联合实验室进一步升级成研究院,还有很多其他项目正在进行中,相信马上会有一些其他的成果会出来。

原文  http://www.jiqizhixin.com/article/2188
正文到此结束
Loading...