什么是大数据
一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
Gartner
麦肯锡
关键词
决策力、洞察力和流程优化能力
特征
Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)
提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。
在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。例如,通过结合大数据和高性能的分析,下面这些对企业有益的情况都可能会发生:
1)及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美元。
2)为成千上万的快递车辆规划实时交通路线,躲避拥堵。
3)分析所有SKU,以利润最大化为目标来定价和清理库存。
4)根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。
5)从大量客户中快速识别出金牌客户。
6)使用点击流分析和数据挖掘来规避欺诈行为。
第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。
第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。
洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。
google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。
统计学家内特.西尔弗(Nate Silver)利用大数据预测2012美国选举结果。
麻省理工学院利用手机定位数据和交通数据建立城市规划。
梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。
医疗行业早就遇到了海量数据和非结构化数据的挑战,而近年来很多国家都在积极推进医疗信息化发展,这使得很多医疗机构有资金来做大数据分析。
1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销
2) 做小而美模式的中小微企业可以利用大数据做服务转型
3) 面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值
趋势一:数据的资源化
何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。
趋势二:与云计算的深度结合
大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。
趋势三:科学理论的突破
随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。
趋势四:数据科学和数据联盟的成立
未来,数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。
趋势五:数据泄露泛滥
未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视今天的安全定义。在财富500强企业中,超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障,而并非在数据保存的最后一个环节,仅仅加强后者的安全措施已被证明于事无补。
趋势六:数据管理成为核心竞争力
数据管理成为核心竞争力,直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后,企业对于数据管理便有了更清晰的界定,将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外,对于具有互联网思维的企业而言,数据资产竞争力所占比重为36.8%,数据资产的管理效果将直接影响企业的财务表现。
趋势七:数据质量是BI(商业智能)成功的关键
采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中要面临的一个挑战是,很多数据源会带来大量低质量数据。想要成功,企业需要理解原始数据与数据分析之间的差距,从而消除低质量数据并通过BI获得更佳决策。
趋势八:数据生态系统复合化程度加强
大数据的世界不只是一个单一的、巨大的计算机网络,而是一个由大量活动构件与多元参与者元素所构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。而今,这样一套数据生态系统的基本雏形已然形成,接下来的发展将趋向于系统内部角色的细分,也就是市场的细分;系统机制的调整,也就是商业模式的创新;系统结构的调整,也就是竞争环境的调整等等,从而使得数据生态系统复合化程度逐渐增强。
归结其本质,数据仓库的真正目的在于成为用于决策的完美平台。大多数的 DW (数据仓库)和 BI (商业智能)架构师都接受这一观点。但又有多少人停下来并且仔细思考到底什么是才是决策呢?
决策的架构到底应该是什么样的呢?
钻取是指沿着层次结构(维度的层次)查看数据,钻取可以变换分析数据的粒度。钻取分为下钻(Drill-down)和上钻(Drill-up),上钻是沿着数据的维度结构向上聚合数据,在更大的粒度上查看数据的统计信息,而下钻是沿着数据的维度向下,在更小的粒度上查看更详细的数据。
ETL
数据的抽取、转换、加载
DW
数据仓库(Data Warehouse)
DSS
决策支持系统(Decision-making Support System,DSS)是管理信息系统应用概念深化,在管理信息系统基础上发展起来的系统。DSS是解决非结构化问题,服务于高层决策的管理信息系统,按功能可分为专用DSS,DSS工具和DSS生成器。专用DSS 是为解决某一领域问题的DSS。DSS工具是指某种语言、某种操作系统、某种数据库系统。DSS 生成器是通用决策支持系统,一般DSS包括数据库(DB)、模型库(MBMS)、方法库、知识库和会话部件。
一般由数据仓库(Data Warehouse)来充当DSS 数据库。数据库为决策提供数据能力或资料能力。模型库为决策提供分析能力的部件,模型能力的定义是转化非结构化问题的程度。会话部件,又称接口部件,它是人和决策支持系统联系的接口。
IDSS
智能决策支持系统(IDSS)在一般DSS基础上增加了OR/MS深度知识库。所以IDSS=DSS+AI(人工智能)。
智能决策支持系统是决策支持系统(DSS)与人工智能(AI)相结合的产物,其设计思想着重研究把AI的知识推理技术和DSS的基本功能模块有机地结合起来。有的DSS已融进了启发式搜索技术,这就是人工智能方法在DSS中的初步实现。将人工智能技术引入决策支持系统主要有两方面原因:第一是人工智能因可以处理定性的、近似的或不精确的知识而引入DSS中;第二DSS的一个共同特征是交互性强,这就要求使用更方便,并在接口水平和在进行的推理上更为“透明”。人工智能在接口水平,尤其是对话功能上对此可以作出有益的贡献,如自然语言的研究使用使DSS能用更接近于用户的语言来实现接口功能。
SDSS
自从20世纪70年代决策支持系统概念被提出以来,决策支持系统已经得到很大的发展。1980年Sprague提出了决策支持系统三部件结构(对话部件、数据部件、模型部件),明确了决策支持系统的基本组成,极大地推动了决策支持系统的发展。
20世纪80年代末90年代初, 决策支持系统开始与专家系统(Expert System, ES)相结合,形成智能决策支持系统( Intelligent Decision Support System, IDSS)。智能决策支持系统充分发挥了专家系统以知识推理形式解决定性分析问题的特点,又发挥了决策支持系统以模型计算为核心的解决定量分析问题的特点,充分做到了定性分析和定量分析的有机结合,使得解决问题的能力和范围得到了一个大的发展。智能决策支持系统是决策支持系统发展的一个新阶段。20世纪90年代中期出现了数据仓库(Data Warehouse, DW)、联机分析处理(On-Line Analysis Processing, OLAP)和数据挖掘(Data Mining, DM)新技术,DW+OLAP+DM逐渐形成新决策支持系统的概念,为此,将智能决策支持系统称为传统决策支持系统。新决策支持系统的特点是从数据中获取辅助决策信息和知识,完全不同于传统决策支持系统用模型和知识辅助决策。传统决策支持系统和新决策支持系统是两种不同的辅助决策方式,两者不能相互代替,更应该是互相结合。把数据仓库、联机分析处理、数据挖掘、模型库、数据库、知识库结合起来形成的决策支持系统,即将传统决策支持系统和新决策支持系统结合起来的决策支持系统是更高级形式的决策支持系统,成为综合决策支持系统(Synthetic Decision Support System, SDSS)。综合决策支持系统发挥了传统决策支持系统和新决策支持系统的辅助决策优势,实现更有效的辅助决策。综合决策支持系统是今后的发展方向。
GDSS
群决策支持系统(GDSS)
群决策支持系统可提供三个级别的决策支持:
第一层次是GDSS旨在减少群体决策中决策者之间的通信,沟通信息,消除交流的障碍,如及时显示各种意见的大屏幕,投票表决和汇总设备,无记名的意见和偏爱的输入,成员间的电子信息交流等。其目的是通过改进成员间的信息交流来改进决策过程,通常所说的“电子会议系统”就属于这一类。
第二层次的GDSS提供善于认识过程和系统动态的结构技术,决策分析建模和分析判断方法的选择技术。这类系统中的决策者往往面对面地工作,共享信息资源,共同制定行动计划。
第三层次的GDSS其主要特征是将上述两个层次的技术结合起来,用计算机来启发、指导群体的通信方式,包括专家咨询和会议中规则的智能安排。
DDSS
分布式决策支持系统(DDSS)
DDSS是由多个物理分离的信息处理特点构成的计算机网络,网络的每个结点至少含有一个决策支持系统或具有若干辅助决策的功能。与一般的决策支持系统相比,DDSS有以下一些特征:
DDSS是一类专门设计的系统,能支持处于不同结点的多层次的决策,提供个人支持、群体支持和组织支持。不仅能从一个结点向其它结点提供决策,还能提供对结果的说明和解释,有良好的资源共享。能为结点间提供交流机制和手段,支持人机交互,机机交互和人与人交互。具有处理结点间可能发生的冲突的能力,能协调各结点的操作,既有严格的内部协议,又是开放性的,允许系统或结点方便地扩展,同时系统内的结点作为平等成员而不形成递阶结构,每个结点享有自治权。
3IDSS
智能-交互-集成化决策支持系统(3IDSS)
随着DSS应用范围的不断扩大,应用层次的逐渐提高,DSS已进入到区域性经济社会发展战略研究、大型企业生产经营决策等领域的决策活动中来,这些决策活动不仅涉及到经济活动各个方面、经营管理的各个层次,而且各种因素互相关联,决策环境更加错综复杂。对于省、市、县等发展战略规划方面的应用领域,决策活动还受政治、社会、文化、心理等因素不同程度的影响,而且可供使用的信息又不够完善、精确,这些都给DSS系统的建设造成了很大的困难。在这种情况下,一种新型的、面向决策者、面向决策过程的综合性决策支持系统产生了,即智能-交互-集成化决策支持系统(Intelligent,Interactive and Integrated DSS,简称3IDSS)。
集成化:在这种情况下,采用单一的以信息为基础的系统,或以数学模型为基础的系统,或以知识、规则为基础的系统,都难以满足上述这些领域的决策活动的要求。这就需要在面向问题的前提下,将系统分析、运筹学方法、计算机技术、知识工程、人工智能等有机地结合起来,发挥各自的优势,实现决策支持过程的集成化。
交互性:决策支持系统的核心内容是人机交互。为了帮助决策者处理半结构化和非结构化的问题,认定目标和环境约束,进一步明确问题,产生决策方案和对决策方案进行综合评价,系统应具备更强的人机交互能力,成为交互式系统(Interactive systems)。
智能化:决策支持系统在处理难以定量分析的问题时,需要使用知识工程、人工智能方法和工具,这就是决策支持系统的智能化(Intelligent)。
架构这个概念最早起源于建筑行业。《新华词典》对架构的定义是:建造、构筑、框架、支架。
在维基百科中,架构被定义为:规划、设计和建造建筑物或其它物理结构的过程或者产出物(Architecture is both the process and the product of planning, designing, and constructing buildings and other physical structures. )。
在柯林斯英汉双解大词典中,architecture被翻译为建筑艺术(Architecture is the art of planning, designing, and constructing buildings. )或者是建筑风格(The architecture of a building is the style in which it is designed and constructed. )。
架构的概念起源于建筑其实不难理解。首先建筑是物理实体,看得见摸得着,非常直观。人们通过观察建筑,可以了解到建筑的各个组成部分以及各个组成部分是如何连接在一起的;通过更进一步的观察可以总结出建筑物的不同风格。由以上架构的定义可知,架构可以作为名词指代建筑物的结构或者建筑风格(设计和规划的结果),也可以作为动词指代设计、规划和建造建筑物结构和风格的过程(设计和规划的过程)。虽然架构的概念起源于建筑行业,但由于几乎所有的事物都可以分解为不同的组成部分,而且各个组成部分之间也存在着各种各样的关系,因此架构的概念也就自然而然地应用到了不同的行业和技术领域中,例如,公司的组织架构和体现各部门职责分工的业务架构、在软件开发技术领域中的软件架构等。- 软件系统的架构
组成派
Mary Shaw在《软件体系结构:一门初露端倪学科的展望》中,为“软件架构”给出了精致利索的定义:
软件系统的架构将系统描述为计算组件及组件之间的交互(The architecture of a software system defines that system in terms of computational components and interactions among those components.)。
必须说明,上述定义中的“组件”是广泛意义上的元素之意,并不是指和CORBA、DCOM、EJB等相关的专有的组件概念;“计算组件”也是泛指,其实计算组件可以进一步细分为处理组件、数据组件、连接组件等。总之,“组件”可以指子系统、框架、模块、类等不同粒度的软件单元,它们可以担负不同 的计算职责。
决策派
在决策派中,RUP(Rational Unified Process,Rational统一过程),它把软件架构定义为关于以下问题的重要决策:
- 1)软件系统的组织; - 2)选择组成系统的结构元素和它们之间的接口,以及当这些元素相互协作时所体现的行为; - 3)如何组合这些元素,使它们逐渐合成为更大的子系统; - 4)用于指导这个系统组织的架构风格:这些元素以及它们的接口、协作和组合; - 5)软件架构并不仅仅注重软件本身的结构和行为,还注重其他特性:使用、功能性、性能、弹性、重用、可理解性、经济和技术的限制及权衡,以及美学等。
小结
RUP给出的软件架构的定义虽然比较冗长,但其核心思想非常明确:软件架构是在一些重要方面所做出的决策的集合。软件架构的组成派和决策派的定义是从两个不同角度去描述软件架构,并不矛盾。组成派认为:架构=组件+交互,这是从软件架构的设计结果角度去定义。决策派认为:架构=重要决策的集合,这是从软件架构的设计过程角度去定义。组成派和决策派的定义合在一起,完整地表达了“软件架构”所指代的设计结果(软件架构)和设计过程(设计软件架构的过程)的2个方面的含义。
2002 年,Bill 提出了一种用于决策的非常有用的架构,称之为“分析应用过程”。由五个阶段构成:
1.发表报告(报表)。
2.识别异常。
3.判定因果要素。设法理解所识别出的异常背后的原因或根源。
4.模型选项。提供评估不同的决策选项。
5.跟踪操作。评价推荐操作的有效性,并将决策同时反馈给业务系统,并针对该事项发表报告,形成负反馈闭环。
基础数据及事务处理层
事务处理层是应用软件中最基础的层次,也是最为庞大和繁琐的一层,所采集的信息是大量的业务基础数据,如宏观经济、农业信息数据库;人口统计数据库、政策法规库、企业产品库。另外,还包括对各类数据进行分析、统计、查询等事务处理的应用系统,如月度、季度、年度等宏观经济监测系统、预警分析系统;宏观经济跟踪、预测、预警系统等。在决策支持系统中需要对该层的信息系统进行分类、加工和整理,形成决策支持系统中的元数据。
统计分析管理监控层
根据由业务基础数据经过抽取或加工后所形成的信息,对其业务范围内的业务情况进行信息查询、信息分析、监督管理和检查的职能。在经过抽取和整理的元数据的基础之上,建立各种统计、分析模型,如计量经济模型、多方程时间序列统计模型、神经网络及投入产出模型等。通过模型的定义和开发,利用构成的经济模型,对经济系统中各方面给出全面深入的各种分析结果,包括因素分析、预测和政策模拟。其中要求系统能自动调用和集成不同类型的分析工具,例如回归分析和投入产出的自动结合。
辅助决策层
根据统计分析管理监控层的各种分析模型,进行多维的、更为复杂的综合分析和计算,从中发现各种趋势(如人口增长趋势、宏观经济趋势预测等);发现异常情况;得到重要细节;找出内在规律,为各级领导的决策业务提供切实有效的帮助。每一个业务系统都将包含针对其相应业务(如人口、宏观经济、农业、外商投资、政策法规、企业产品等)的辅助决策子系统,在各业务辅助决策子系统的支持下,还可拓展面向综合性的辅助决策系统。
合抱之木,生于毫末;九层之台,起于垒土;千里之行,始于足下。积土成山,风雨兴焉;积水成渊,蛟龙生焉;积善成德,而神明自得,圣心备焉。故不积跬步,无以至千里;不积小流,无以成江海。骐骥一跃,不能十步;驽马十驾,功在不舍。锲而舍之,朽木不折;锲而不舍,金石可镂。蚓无爪牙之利,筋骨之强,上食埃土,下饮黄泉,用心一也。蟹六跪而二螯,非蛇鳝之穴无可寄托者,用心躁也。