转载

合肥工大学吴信东：大数据Processing Framework多层架构

为了更好地引导和推动我国人工智能领域的发展，由中国人工智能学会发起主办，CSDN承办的2015中国人工智能大会（CCAI 2015）于7月26-27日在北京友谊宾馆召开。本次会议的主旨是创办国内人工智能领域规模最大、规格最高的高水平学术和技术盛会，汇聚国内外顶级的专家学者及产业界人士，围绕当前最新热点和发展趋势的话题进行交流与探讨，并针对 “机器学习与模式识别” 、 “大数据的机遇与挑战” 、 “人工智能与认知科学” 和 “智能机器人的未来” 四个主题进行专题研讨，努力打造国内人工智能前沿技术和学术交流的平台。

合肥工业大学教授、国家“千人计划”特聘专家吴信东

合肥工业大学教授、国家“千人计划”特聘专家吴信东的演讲主题是“大数据知识挖掘”。在他看来，大数据已经成为全球火爆的技术话题，但究竟什么样的规模叫做大数据？从数据库、统计学、数学等方面来看都有不同定义和解读。但对其核心技术的需求是一样的，数据关联和分析。2014年1月发表了《HACE Theorem》论文之后，IEEE XPLORE每月下载量都非常高。其中，HACE是heterogeneous、Autonomous sources、Complex、Evolving relationship的缩写，核心是通过数据特征找到数据关联。在合肥工大看来，大数据Processing Framework有多层：数据计算平台、专家系统、信息个性化保护、数据挖掘。

以下为速记整理：

吴信东 ：李院士和沈向洋分享了两个非常好的主题，脑认知和计算机视觉与深度学习。我在后面也挑一个比较时髦的话题叫大数据挖掘。现在给大家介绍一下我以前研究的几个领域，最初是做数据挖掘的，而后是专家系统技术。1988年在北京工业电子出版社出了一本书叫《专家系统技术》，2002年出了《专家系统设计》，大学博士论文叫做“数据挖掘”，正好赶上数据挖掘的好时代。1993年在爱丁堡大学博士毕业之后，参加了全球非常有名的技术会议，一直在研究大数据挖掘技术。

我报告分成几个部分，第一个大数据时代到来，现在不是全国人民，是全世界人民都在讨论大数据。大数据很火，现在大家都知道，不光是做计算机的，美国政府已经制定了大数据行动计划，所以在2013年12月份美国ICDM会上，讨论大数据的定义和技术要点。第一个观点是华人学者提出的一个问题，大数据多大叫大？如果非常大就不算大，因为1975年开始VRDB（Very Large Data Bases）的数据会议，就已提出大数据量，这是全球最好的数据库会议。第二个观点是英国专家，数据库的多少是跟数据库成反比，意义就是说数据越大，跟我们每天相关越不紧密。反而是这个小数据库，跟我们的关系更密切，跟社会发生影响更大。第三个观点是无数O相加是O还是会是1。从数学来看是0，但如果其中发生化学等变化，是有成为1的可能性。还有在ICDM和KKD会议上，都有不同解读。

大数据的说法由来已久，从1883年统计学就已出现，后来还有商务数据、智能数据、大数据。但无论怎么称呼，做的事情都是相同的，是在数据中找到数据模型，挖掘规律。大数据走到现在，更多搜索已经不再是看名词，而是数据挖掘需求，比如数据之间的关联和规律，新工具和技术，数据科学、数据挖掘等。核心就是要提供给人们和社会提供一个技术的佐证。比如奥巴马和希拉里两个小时辩论有一千万条讨论，信息都比较短。但要看到哪些人最开始反对一个候选人，通过别人的讨论改变了他的观点这样的搜索，就需要大数据分析。

所以， 我们2014年1月发表了《HACE Theorem》论文。论文发表后，IEEE XPLORE每月下载量都非常高，18个月来已经被引用128次，每个月在IEEE下载量全球第一。 其中，HACE是heterogeneous、Autonomous sources、Complex、Evolving relationship的缩写，核心是通过数据特征找到数据关联。

大数据分析实际上做两件事儿， 找出事物对象之间的复杂性，复杂性不是一对一，是多对多，关键问题是这个关系是在变的 ，比如今天我在台上作报告，你在台下，有可能明年你可能在台上做报告，我在台下。数据两个特征，数据挖掘和数据分析这是两个对象的研究问题。比如小学盲人摸象，万维网上的99的%对99%的人来讲毫无信息，你摸到的看到的你受关注的可能只是1%，每个人摸象的体会不一样。

在国外有一个数字模型是四维模型，四维以后还有五维模型，叫做不同的侧面，叫Relevant Realtime。就是商业模式是什么，为什么要做大数据，企业是怎么做的。这个模型的挖掘方法已经在医疗上有所应用。首先是个性化服务、个性化预测，判定个人健康，然后把病人的疾病诊治和防治过程放入病例过程。比如糖尿病病人，到社区媒体中认识，讨论亲身体会，然后再把亲身体会拿回来作为经验。大数据在病人和医生中间采取五维。

在我们看来，大数据Processing Framework有多层：数据计算平台、专家系统、信息个性化保护、数据挖掘。

我们讲大数据分析实际有多层， 数据形态，你要讲大数据必须要把数据存储，数据计算；专家系统，做数据分析；形成个性化的信息保护；外面一层就是数据挖掘，数据库变化 。今年9月份我们会刊登出来。这是我们自己定义的大数据一套模型。

后面有两点细致工作，一个是数据流数据发生变化，另外一个数据描述发生变化，数据特征和数据变量在发生变化。我们做了两个系统：一个叫个性化推荐系统。我们在合肥建立一个网站，国外找到五个英文网站，国内找到五个中文网站，爬虫个性化服务，就找你早上上班的时候信息发布。而在过滤广告后，在过滤过的新闻和网站我们建一个知识本体，形成我们有个三层结构的知识库，谁需要可以安装到部门，可以安装到政府部门，可以安装到学校，有几个小团队帮你建立知识本体，然后再针对不同的用户，我们建个体建模。

第二个是特征变化，刚刚讲了同一天给你1到20个变量，到了第二天20到40个变量，变量发生变化了，这个时候就有中文大辞典，英文大辞典，网络上面网民自己创造，网络上面出来新的词，做文本处理可能涉及到不仅仅处理，然后把新词加到辞典里面新词就变成变量，这个变量怎么做，所以我们建立一个机制，保留你所需要的。

这里有很多问题。比如给1000个最好的变量，和1000个最坏的变量比起来，实验结论不同。改变变量出现次数，就会改变精度。改变精度，所有的模型都会影响。我们数据相对比较稳定，一直是选择最好的变量，所以一个是做精度，一个是做时间，一个是考虑变量的过程和变量秩序。这里举了美国航空图像上，三幅火星不同的位置的图片的例子。

HACE在大数据基础上，从异构数据进行，然后再做数据治理能力。大数据要做复杂和关联的关系。我们现在做了几个相关项目，如美国国家基金的项目，国家863项目，NSFC海外异构模型化的环境模式处理，（和北理一起）社交网络影响与交互的研究，教育部多语音变量存储等。

更详细的会议日程和相关信息请随时关注大会官网（持续更新中）： http://ccai2015.csdn.net/ 。

正文到此结束