李明,加拿大皇家学会院士,滑铁卢大学教授,现代信息论奠基者,国家“千人计划”专家
在 2016 CCF-GAIR 全球人工智能与机器人峰会上,李明院士接受了雷锋网的采访,分享了他对用深度学习对付NLP(自然语言处理)难题的看法,及深度学习在NLP研究领域的未来应用
李明院士:入选加拿大皇家学会的程序没有那么繁琐,获得评选资格后,由一两个院士写支持信,院士评选会进行评选,比较公正。与中国工程院的体系不同,英国加拿大皇家科学院包括科学,工程,社科类,法律等。
雷锋网:当前在语义理解方面深度学习在科学上是否有突破性的进展?
李明院士:Siri主要通过关键字来识别语义信息,比如,你问“鱼吃什么”,它会回答“海鲜馆”类信息,容易犯错误,而模版(icon)匹配,太严格,不灵活,“美国总统是谁”,你可以获得准确答案“奥巴马”,但是对于“美国总统是谁啊”这样的问题形式,基于模板的语义理解则不能识别。而我们运用的深度学习不同于别的公司,可以把对这个问题的回答变得具有鲁棒性,不会出现很多错误,而这是非常关键的,也就是说,深度学习可以解决这一问题。深度学习也存在局限性,比如需要很多大数据来训练,而我们公司的优势在于我们可以自己生成大量数据。
雷锋网:微软的聊天机器人是通过网络公开采集数据进行训练,回答问题时可能会出现不友好的现象,未来有没有可能制造出个性化聊天机器人?
李明院士:比如,聊天机器人小冰之所以出现这么多问题,主要原因是信息复制的。我们运用的深度学习模型,可以将最主流的回答(友好的回答)筛选出来,将过滤掉支流的回答,这也是深度学习的问题所在,回答没有特殊性,不过,深度学习可以在一定程度上避免这种不友好回答的问题。或者说,深度学习是否会因为样本足够大,可以包容所有的问题,实现个性化聊天?根据统计结果显示,豆豆比小冰可以回答的问题多十倍。现在的深度学习有很多不是真正意义上的深度学习。我们的豆豆,有20多个深度学习模式,可以筛选出最优的回答结果。此外,我们的聊天机器人的对话模式与方言无关,只管语义信息的输入。
雷锋网:在实际应用中,“信息距离”理论是否存在理论上的局限性或技术上的难题?
李明院士:我们的“信息距离”理论在理论上无局限性,但是技术上有局限性,语义距离没有定义,不可计算,信息距离有定义,但是也不可计算,只能通过压缩的方式来度量,用“信息距离”来近似“语义距离”。具体压缩方法:简单来讲,如“明天明天”将被压缩为一个词语“明天”,实现信息方面的简化。
雷锋网:在实现大型文本关系理解(理解人类语言表达的结构和意义)方面,相比其他算法与模型,深度学习的优点体现在哪里?
李明院士:相比其他算法与模型,深度学习的优点在于其对话鲁棒性。一般用于实现机器人对话的办法多为关键字法,模板匹配法,但是,相比这两种方法,深度学习处理的对话信息可以以多种形式出现,能够容忍一些错误,实现较为自然的人机交互对话。
李明院士:相比于汉语分词,我们的系统不需要考虑英文分词,因为英语单词之间有空格隔开,不用进行分词。
雷锋网:您认为,深度学习在计算机智能处理自然语言方面需要做哪些方面的提升?
李明院士:下一步,基于大数据,深度学习训练的好的话,未来的智能机器人可以读书看报,比如,读红楼梦,未来的智能机器人可以分辨清楚人物关系,譬如,小说中谁喜欢谁,谁是谁的大姨妈,再比如,能够分辨出三国演义中,谁与谁结义了。现在深度学习可以回答类似下面的一类问题:林黛玉去了贾宝玉的房间。问:谁去了贾宝玉的房间?当前的深度学习可以回答:林黛玉,其回答问题的精度精确度可以达到70%到80%。
雷锋网:深度学习可以区分指示代词的歧义现象吗?
李明院士:现阶段深度学习还不具备拥有的足够量的背景知识来区分上下文语言歧义现象,不过,经过训练,我想是可以实现的。机器人对话当前可以实现宽泛的问答,不过,对于一些小的语言问题,比如,怎么理解“鸡不吃了”,深度学习还没有兼顾到。
雷锋网:当前的人机对话模型发展得比较迅速,对于“机器会有意识吗?”这样的问题,可以与我们分享一下您的观点吗?
李明院士:其实,目前的机器人自然语言对话,多是训练出来的。在众多研究,没有任何人能够清楚地定义:什么叫意识?我认为,机器人说话,类似于人说梦话,你问一个梦游的人一些问题,他是回答问题时是没有意识的,却能说的头头是到,机器人对话其实是一样的。