转载

机器翻译能够铲平“语言国界”吗

对大多数人来说,通晓不同语言是一种才能的表现,绝大部分的中国人究其一生也只会说中文。然而在全球化进程当中,即使实际意义上的国界线变得模糊,语言也是国与国之间的一道天然屏障。不同语言之间的人很难进行交流,就更别说深入彼此的生活了。之前我设想过创造一个“万能翻译机”,让它能对所有的语言语境进行智能的判断,用机器来铲平“语言国界”。这次百度刚刚发布的基于深度学习的在线翻译系统让我看到了理想实现的希望。该系统借助计算机模拟的海量神经元,仿效人脑“理解语言,生成译文”,使得机器翻译质量实现了质的飞跃。那么机器翻译这个领域的历史和未来发展是什么,这个值得我们聊一聊。

早期:机器翻译是个世纪难题

计算机从最开始就与翻译密不可分,早在1947年计算机诞生之初就有了机器做翻译的打算。计算机具备永不停歇的计算能力和存储能力,按照早期设想,只要在数据库当中存入足够量的单词匹配,并且辅以对应的匹配原则和逻辑顺序就能做好翻译。当时各个国家都笼罩在“机器代替人脑”的美妙光环下,计算机杂志断言“三年内机器翻译就可以代替人类翻译”。

当然结果大家都清楚,即使阿波罗11号登上了月球,机器翻译仍然是一个世纪难题,相比登月这种克服地球引力的事情,人类自己创造的语言更像是一条复杂的地下河,每一句话用不同的口气表达都可能有截然不同的意思,即使一个词汇也在不同的语境下也有着不同的解释。实际上,严格地说早期的机器翻译并不能叫翻译,充其量只能算是单词翻译,整句话的质量惨不忍睹。因为电脑知道每一个单词的意思,但是组成一个句子就变得各种匪夷所思。

早期的电脑本身就是一个独立的个体,没有学习的能力,所有的逻辑都是由人录入进去的。因此,输出的翻译也是完全生搬硬套出来的,没有语义加入其中,生涩无比。用一个通俗的道理讲,早期的翻译就像是发射火箭,每一步骤(词组翻译语法匹配)都需要无比精确并且没有错误,这是一个极为庞大的流程,中间任何一个环节有问题,出来的结果就可能相差十万八千里。

那么,如果让机器翻译变得像开车一样,只要知道目的地的所在,中间的路可以自己来规划控制,这样难度就大幅度降低了。

发展:机器像人脑一样学习、分析、翻译

做翻译的人都知道,各种语言相互翻译的核心是语法的转换和词意的准确定位。其中语法的转换指的是不同语言的句式拆分不同,比如说德语的动词在最后,而汉语的动词则在中间,不同语言的语法结构对于机器来说需要很多工作来调整。而更难的则是同一个词汇的不同含义,比如说“意思”这个词,在“这是什么意思”和“这是一点小意思”中表达两个完全不同的含义。这一点各国语言都有大量的示例,我没记错的话,冰岛的爱斯基摩语中,一个词汇就有3000种不同的含义。

OK,你以为解决了这两个问题就算完事了?Too na?ve!做完了这些只能勉勉强强让人看明白一句话的意思,但是如果把好几个句子放在一起,电脑就又会抓瞎了。毕竟现在的电脑无法理解多个语句之间的关系,只能作为相互独立的事件处理,这样出来的翻译自然会有“牛头不对马嘴”的情况。因为电脑还无法理解全文的基调和含义。

那么你又要问了,你叫电脑去学习看文章这不开玩笑呢嘛?当然不是,百度目前正在解决这个问题。大数据把之前一台台独立的电脑连接起来,并且进行了分层学习和处理。这个怎么理解呢?我们先看大脑,大脑被誉为是目前人类已知的最复杂的结构,即使是最笨的人在巅峰20岁也有1000亿的神经元(随后每年递减1000万),这些神经元就是人意识、学习、判断能力产生的根源。与电脑一样,当只有一台服务器的时候就是一个神经元,起不了太大的作用。而当成千上万的服务器连接在一起的时候,就能具备学习的功能了。神经元之间会进行分工,收集数据、整理、分析、学习、演进。如果电脑组成的大脑开始具备学习的能力,那么终有一天,机器翻译将会达到人工翻译的水平,并且效率更高。

期待:解决人类最基本的沟通需求

融合统计与深度学习方法的百度机器翻译技术就像是一位经验丰富的司机,用户只需说出想要翻译的句子,翻译系统负责当司机,走高速还是走国道,哪个地方车多踩刹车,哪个地方没人开快点,都能有人工智能控制,人只需要舒舒服服的看到结果就行,这就是互联网时代人工智能技术的魅力。

当然,我们必须承认,人工智能技术现在还处于发展初期。就像百度的基于深度学习的在线翻译系统,在刚刚构建完成之后像刚出生的婴儿一样,不懂任何事情。它需要海量的各种语言的文章、句子、词汇作为样本,需要拆分、转换、分析、组合,将语意和语境理解分析,将词汇嵌入其中搭配组合,并且形成记录不断修正、纠错,从而使其正确率越来越高。只要我们有足够耐心,给它成长的时间,那么未来机器翻译绝对能够满足一个最重要的刚需,就是千百年来人类最基本的需求—自由沟通与交流。

影响:人工智能新突破与产业新浪潮

毫无疑问,越来越聪明的机器翻译带来的将会是翻天覆地的变化。我们无需学习复杂的各国语言就可以畅快了解其他国家的文明,不会因为通过质量参差不齐甚至是断章取义的翻译就对其他文明产生误解。而这一切将会让全世界的交流产生根本性的变革。如果沟通没有障碍,多少的民族误会可以逐渐消除,多少可以避免的战争会得到平息。如果说互联网带来的是平台和分享,那么翻译将会彻底踏平语言的国界,使地球成为真正的地球村。

目前翻译的重要性已经开始被人所认识,清华大学计算机系党委书记、教授、博导孙茂松对机器翻译报以非常大的期望,“从国家战略角度看,机器翻译是重要的国家软实力之一,从老百姓角度看,包括做生意、旅游等,机器翻译都是不可缺少的工具,它的社会、经济效益是不可低估的。”有了机器翻译,出国不再害怕讲英文,不再害怕听不懂,上AmazonUSA一键翻译成中文就开始购物。对于所有的智能设备来说,翻译和云服务等都是基础应用,它必将会为社会和企业带来更多的发展。

进一步说,对于国家而言,机器翻译的发展将会带来巨额时间成本的缩短和更高的投资回报,今年最火的“一带一路”涉及俄罗斯、印度等国家超过六十个,人口逼近三四十亿,想要打造政治互信、经济融合、文化包容的利益共同体,语言不通将会造成很大障碍,而机器翻译的发展可以发挥举足轻重的作用。

订阅我的RSS: http://column.iresearch.cn/rss/HavenWoo/index.xml
专栏内容系作者个人观点,不代表艾瑞网对此观点赞同或支持。如有异议请直接联系作者处理。
正文到此结束
Loading...