转载

合肥工大学吴信东:大数据Processing Framework多层架构

为了更好地引导和推动我国人工智能领域的发展,由中国人工智能学会发起主办,CSDN承办的2015中国人工智能大会(CCAI 2015)于7月26-27日在北京友谊宾馆召开。本次会议的主旨是创办国内人工智能领域规模最大、规格最高的高水平学术和技术盛会,汇聚国内外顶级的专家学者及产业界人士,围绕当前最新热点和发展趋势的话题进行交流与探讨,并针对 “机器学习与模式识别”“大数据的机遇与挑战”“人工智能与认知科学”“智能机器人的未来” 四个主题进行专题研讨,努力打造国内人工智能前沿技术和学术交流的平台。

合肥工大学吴信东:大数据Processing Framework多层架构

合肥工业大学教授、国家“千人计划”特聘专家  吴信东

合肥工业大学教授、国家“千人计划”特聘专家吴信东的演讲主题是“大数据知识挖掘”。在他看来,大数据已经成为全球火爆的技术话题,但究竟什么样的规模叫做大数据?从数据库、统计学、数学等方面来看都有不同定义和解读。但对其核心技术的需求是一样的,数据关联和分析。2014年1月发表了《HACE  Theorem》论文之后,IEEE XPLORE每月下载量都非常高。其中,HACE是heterogeneous、Autonomous sources、Complex、Evolving relationship的缩写,核心是通过数据特征找到数据关联。在合肥工大看来,大数据Processing Framework有多层:数据计算平台、专家系统、信息个性化保护、数据挖掘。

以下为速记整理:

吴信东 :李院士和沈向洋分享了两个非常好的主题,脑认知和计算机视觉与深度学习。我在后面也挑一个比较时髦的话题叫大数据挖掘。现在给大家介绍一下我以前研究的几个领域,最初是做数据挖掘的,而后是专家系统技术。1988年在北京工业电子出版社出了一本书叫《专家系统技术》,2002年出了《专家系统设计》,大学博士论文叫做“数据挖掘”,正好赶上数据挖掘的好时代。1993年在爱丁堡大学博士毕业之后,参加了全球非常有名的技术会议,一直在研究大数据挖掘技术。

我报告分成几个部分,第一个大数据时代到来,现在不是全国人民,是全世界人民都在讨论大数据。大数据很火,现在大家都知道,不光是做计算机的,美国政府已经制定了大数据行动计划,所以在2013年12月份美国ICDM会上,讨论大数据的定义和技术要点。第一个观点是华人学者提出的一个问题,大数据多大叫大?如果非常大就不算大,因为1975年开始VRDB(Very Large Data Bases)的数据会议,就已提出大数据量,这是全球最好的数据库会议。第二个观点是英国专家,数据库的多少是跟数据库成反比,意义就是说数据越大,跟我们每天相关越不紧密。反而是这个小数据库,跟我们的关系更密切,跟社会发生影响更大。第三个观点是无数O相加是O还是会是1。从数学来看是0,但如果其中发生化学等变化,是有成为1的可能性。还有在ICDM和KKD会议上,都有不同解读。

大数据的说法由来已久,从1883年统计学就已出现,后来还有商务数据、智能数据、大数据。但无论怎么称呼,做的事情都是相同的,是在数据中找到数据模型,挖掘规律。大数据走到现在,更多搜索已经不再是看名词,而是数据挖掘需求,比如数据之间的关联和规律,新工具和技术,数据科学、数据挖掘等。核心就是要提供给人们和社会提供一个技术的佐证。比如奥巴马和希拉里两个小时辩论有一千万条讨论,信息都比较短。但要看到哪些人最开始反对一个候选人,通过别人的讨论改变了他的观点这样的搜索,就需要大数据分析。

所以, 我们2014年1月发表了《HACE  Theorem》论文。论文发表后,IEEE XPLORE每月下载量都非常高,18个月来已经被引用128次,每个月在IEEE下载量全球第一。 其中,HACE是heterogeneous、Autonomous sources、Complex、Evolving relationship的缩写,核心是通过数据特征找到数据关联。

大数据分析实际上做两件事儿, 找出事物对象之间的复杂性,复杂性不是一对一,是多对多,关键问题是这个关系是在变的 ,比如今天我在台上作报告,你在台下,有可能明年你可能在台上做报告,我在台下。数据两个特征,数据挖掘和数据分析这是两个对象的研究问题。比如小学盲人摸象,万维网上的99的%对99%的人来讲毫无信息,你摸到的看到的你受关注的可能只是1%,每个人摸象的体会不一样。

在国外有一个数字模型是四维模型,四维以后还有五维模型,叫做不同的侧面,叫Relevant Realtime。就是商业模式是什么,为什么要做大数据,企业是怎么做的。这个模型的挖掘方法已经在医疗上有所应用。首先是个性化服务、个性化预测,判定个人健康,然后把病人的疾病诊治和防治过程放入病例过程。比如糖尿病病人,到社区媒体中认识,讨论亲身体会,然后再把亲身体会拿回来作为经验。大数据在病人和医生中间采取五维。

在我们看来,大数据Processing Framework有多层:数据计算平台、专家系统、信息个性化保护、数据挖掘。

我们讲大数据分析实际有多层, 数据形态,你要讲大数据必须要把数据存储,数据计算;专家系统,做数据分析;形成个性化的信息保护;外面一层就是数据挖掘,数据库变化 。今年9月份我们会刊登出来。这是我们自己定义的大数据一套模型。

后面有两点细致工作,一个是数据流数据发生变化,另外一个数据描述发生变化,数据特征和数据变量在发生变化。我们做了两个系统:一个叫个性化推荐系统。我们在合肥建立一个网站,国外找到五个英文网站,国内找到五个中文网站,爬虫个性化服务,就找你早上上班的时候信息发布。而在过滤广告后,在过滤过的新闻和网站我们建一个知识本体,形成我们有个三层结构的知识库,谁需要可以安装到部门,可以安装到政府部门,可以安装到学校,有几个小团队帮你建立知识本体,然后再针对不同的用户,我们建个体建模。

第二个是特征变化,刚刚讲了同一天给你1到20个变量,到了第二天20到40个变量,变量发生变化了,这个时候就有中文大辞典,英文大辞典,网络上面网民自己创造,网络上面出来新的词,做文本处理可能涉及到不仅仅处理,然后把新词加到辞典里面新词就变成变量,这个变量怎么做,所以我们建立一个机制,保留你所需要的。

这里有很多问题。比如给1000个最好的变量,和1000个最坏的变量比起来,实验结论不同。改变变量出现次数,就会改变精度。改变精度,所有的模型都会影响。我们数据相对比较稳定,一直是选择最好的变量,所以一个是做精度,一个是做时间,一个是考虑变量的过程和变量秩序。这里举了美国航空图像上,三幅火星不同的位置的图片的例子。

HACE在大数据基础上,从异构数据进行,然后再做数据治理能力。大数据要做复杂和关联的关系。我们现在做了几个相关项目,如美国国家基金的项目,国家863项目,NSFC海外异构模型化的环境模式处理,(和北理一起)社交网络影响与交互的研究,教育部多语音变量存储等。

更详细的会议日程和相关信息请随时关注大会官网(持续更新中): http://ccai2015.csdn.net/ 。

正文到此结束
Loading...