耶和华说:「看哪!他们成为一样的人民,都是一样的言语……我们下去,在那里变乱他们的口音,使他们的言语彼此不通。」
是众人的塔半途而废,人类也各散东西。
《圣经》以巴别塔解释不同的种族和语言因何存在,如今的人们用这座未能建成的通天高塔象征语言不通带来的混乱隔阂。探险、贸易甚至战争让人类之间彼此发现、了解,交通工具碾「平」世界,无可抗拒的洪流中语言成了绊脚新石。出于理想,1887 年犹太人柴门霍夫(Łazarz Ludwik Zamenhof)以印欧语系为基础创建世界语(Esperanto),试图以此消弭国际交往中的语言障碍。但时至今日使用世界语的人数,仍不足世界人口的 0.03%。
世界语既像语言,又不像任何语言
没有使用环境、没有文化和历史基础的语言,推进速度与愿望相去甚远。于是有人发出感慨:
英语才是世界语。
人人学习英语?过去的 20 年理想实践,似乎并没收到同样理想的效果。
或者,能不能求助于机器,让交流自然发生?
寻找机器翻译
当我看到俄文文章,我说「它就是以英语写成,只是被古怪符号加密而已。现在我要破解密码。」
瓦伦·韦弗(1947)
出于对信息论的研究、二战时期密码破译的推动以及「大同语言」的理想,瓦伦·韦弗(Warren Weaver)在 1949 年发表的备忘录《翻译》中首次建议将计算机应用于翻译。5 年后美国乔治敦大学(Georgetown University)在 IBM 公司协同下,以 IBM-701 计算机首次完成了机器翻译试验。基于 6 项语法规则和 250 字词汇表的俄英翻译系统,能将「Mi pyeryedayem mislyi posryedstvom ryechyi」翻译成「我们通过语音传递思想」。瓦伦·韦弗的构想被实现了,出于军事、政治、经济等多方面因素考虑的政府也开始大量拨款支持研究。
瓦伦·韦弗本人
然而就像 1956 年的认为一个夏天就能突破 AI(人工智能)技术核心的计算机专家们一样,乐观和热情并不能左右现实存在的客观阻力。自试验成功后基于规则(Rule-based)的机器翻译占据了研究主导,但这种系统有着天生弱点难以回避:以词汇为转换核心却又无法选择出最恰当结果,只好将所有选择都输出;语法与算法混杂在一起,使得系统不仅复杂琐碎,设计完成后亦无法扩展。这种机器翻译生成的译文,质量相当低劣。
「早期对简单或选定文本的机器翻译看似鼓舞人心,但对一般科学文献的机器翻译却无一例外地令人失望。」
1966 年由美国国防部、美国国家科学基金会和中央情报局组成自动语言处理顾问机构(ALPAC)发布报告《语言与机器》,全面否定这一项目的可行性,机器翻译从此陷入了长达 10 年的僵局。
啊,不小心放错了片场
事实上瓦伦·韦弗备忘录中所提到是基于统计学的机器翻译,但乔姆斯基 (N.Chomsky,语言学家) 等人认为语言是无限的,基于经验主义的统计描述永远无法满足实验需求。限于设备成本和运算速度,统计的价值难以凸显,瓦伦·韦弗构想中的方法很快就被放弃。
直至 1990 年 Peter F. Brown 发表统计机器翻译开山之作《A Statistical Approach to Machine Translation》,基于大数据加以分析以构建机器翻译系统得以重回人们的视野,现代机器翻译纪元才真正开始。
语言、数据和统计模型
机器翻译涉及计算机、认知科学、语言学、信息论等学科,是人工智能的终极目标之一。
谷歌翻译(Google Translate)项目开始于 2001 年,当时不仅只提供 9 种语音互译且翻译「质量不高,几年来也没有什么提高。」直到 2004 年 弗朗茨·欧赫(Franz Och)加入谷歌翻译,糟糕的状况才得以改善。
颇具传奇色彩的弗朗茨·欧赫,哦对了2014年从谷歌离职
自 2002 年起美国国家标准和技术研究所开始组织 NIST 机器翻译评评估机器翻译系统结果的质量,在首届评测中取得第一名的机器翻译系统,正是由当时在亚琛工业大学攻读博士学位的欧赫开发。
「只要给我充分的并行语言数据,对于任何的两种语言,我都可以在几小时之内构造出一个机器翻译系统。」
在欧赫的研究中,位列第一的永远是数据规模。尝试过使用句法知识改变系统后,欧赫得出句法知识对统计机器翻译毫无用处、甚至有反作用的结论。独立于语言的算法使得计算机专家在不了解语言的情况下,通过算法就可以得到相当不错的翻译结果。对于信仰最简单的模型和最大量数据的欧赫来说,谷歌的海量数据规模使他如鱼得水。
「……机器翻译的美妙之处:最重要的事情是擅长数学和统计学,然后又会编程,那就可以了。」
谷歌翻译的基本原理是通过对大量平行语料的统计分析构建模型,再通过这个模型翻译。生成译文时,需要先在大量人工翻译的文档中寻找模型并进行合理的猜测,再得出恰当的翻译。针对特定语言可供分析的人工翻译文档越多,译文的质量就越高。
作为统计方法的忠实信徒,欧赫将谷歌从互联网上采集的所有英语文档都用来训练语言模型。起初系统运行得非常缓慢,1000 个句子的翻译需要 1000 台电脑外加 40 个小时才能完成。但巨大的语料库和语言模型,使得欧赫所代表的谷歌公司在 NIST 评测中取得了他人难以撼动的优势地位。在 2005 年 NIST 汉英测评中,谷歌位列第一。到了 2006 年除了汉英机器翻译的受限语料项目,NIST 所有项目测评的第一都是谷歌。
从英文名看,是种极特殊的食物
确定方向的欧赫带领团队开始翻译攻克速度的问题,此后的六年时间谷歌翻译团队一直集中解决核心翻译质量和语言覆盖量。机器翻译需要海量的数据存储空间以及高效的运算能力,谷歌拥有的分布式计算系统 (MapReduce) 和分布式存储系统 (BigTable),恰好满足了这两方面需求。
「我们畅想着,在未来世界上每个人都可以互相分享信息,无论你在哪里,说什么语言。」
时至今日谷歌翻译已经可以提供 80 种语言之间的即时翻译,甚至包括网络上极罕见的孟加拉语、巴斯克语、意第绪语以及世界语。然而在欧赫的团队中,仍然没有一个纯粹的语言学家。
我每开除一名语言学家, 我的语音识别系统错误率就降低一个百分点。——贾里尼克
接下来,交流
美国发明家、未来学家 Ray Kurzweil 最近在接受《赫芬顿邮报》的采访时预言,2029 年机器翻译的质量将达到人工翻译的水平。
2013年,Skype 全球用户日均使用时间高达20亿分钟,无疑是最受欢迎的网络电话之一。而早在 2012 年,Skype的全球国际通话使用量就已占全球国际通话总量的 25%。
但从未有人想过,说两种语言的人们可以在 Skype 中流畅对话。
2014 年底,来自美国华盛顿州和墨西哥市两所小学的孩子们首次用 Skype Translator 进行了通话。
「Where in the world do you wish to travel?/Adonde en el mundo te gustaria viajar?」(你想去世界上的哪个地方玩儿?)
「A Rusia,e tu?/To Russia,and you?」(俄罗斯,你呢?)
屏幕两端的塔科马与墨西哥城、英语与西班牙语,就这样毫无障碍的连接在了一起。
翻译模型当然必不可少。但将文字翻译成另一种语言的文字,只是 Skype Translator 逻辑的第二步骤。将实时语音转成文字、通过翻译模型转换为另一种语言、再将文字转变成语音。眨眼之间,三种动作便悄无声息的完成。
事实上早在 2012 年,微软研究院创始人里克·雷斯特(Rick Rashid)就在「二十一世纪的计算」大会上展现过这种实时翻译能力,里克本人的英语演讲经由处理实时转变为中文语音。甚至通过在演讲前 1 小时学习里克的演讲录音,计算机还模拟了他的发音特点。流畅的语言能力、个性化的声音,使得位于翻译塔尖的同声传译失去了光彩。
过去 60 年间,科学家们一直致力于开发能够理解人类说话内容的系统。检查人类语音波形再利用模式匹配,能不能产生和机器翻译一样的效果?可每个人的发音各不相同,早期的构想系统并没能运用于实际。
直到上个世纪 70 年代末隐性马尔可夫模型出现,科学家们开始利用多人数据建立更稳定的统计语音模型。然而即便最佳的语音系统任意语音的单词出错率还高达 20-25%。
「我们试图复制人脑聆听和处理人类语音的方式。」——斯特凡·维茨 (Stefan Weitz)
好在两年前深度神经网络技术的出现带来了新突破。通过仿照人脑行为,研究人员可以训练出更富辨别力、更好的语音识别器,错误率得以降低 30%。用来训练模型的数据越多、效果就越好,但此时此刻的 Skype Translator 在断句和理解人的语气上仍需要提高。
就在 2015 年初,谷歌翻译新版产品上线同样开始支持多语言的实时翻译,甚至还加上了图片翻译——用户可以通过手机的摄像头即时翻译图像内的文本。
《银河系漫游指南》中的巴别鱼,塞进耳朵就可以听懂各星球语言
同声传译真的会失业么?金字塔尖未必会被撼动,毕竟翻译并不仅仅是模型匹配,文学作品背后的隐喻至今也没能勾画清晰。但实时翻译为我们提供了全新的交流想象——也许未来的某一天,不用再往脑袋里塞「巴别鱼」,所有人可以和所有人毫无障碍的交流。
现在,Skype Translator 预览版已支持英语、中文、西班牙语和意大利语之间的实时翻译,你也可以试试看。
头图来自:《 机械姬 》