转载

【广东大数据青年培养】数据挖掘基本任务

数据挖掘主要做什么?换而言之,数据挖掘主要解决什么问题呢?这些问题,可以归结为数据挖掘的基本任务。

数据挖掘的基本任务包括分类与预测、聚类分析、关联规则、奇异值检测和智能推荐等 。通过完成这些任务,发现数据的价值,指导商业抉择,带来商业新价值。

关于这些基本任务,简单描述如下。实际上对每个基本任务,可以看做是数据挖掘所能解决问题的一种类型。对于每个任务,可以从其定义、方法、评价和应用四个方面来认识。

分类与预测 ,一种基于类标号的学习方式,这种类标号若是离散的,属于分类问题;若是连续的,属于预测问题,或者称为回归问题。从广义上来说,不管是分类,还是回归,都可以看做是一种预测,差异就是预测的结果是离散的还是连续的。

聚类分析 ,就是“物以类聚,人以群分”在原始数据集中的运用,其目的是把原始数据聚成几类,从而使得类内相似度高,类间差异性大。

关联规则 ,数据挖掘可以用来发现规则,关联规则属于一种非常重要的规则,即通过数据挖掘方法,发现事务数据背后所隐含的某一种或者多种关联,从而利用这些关联来指导商业决策和行为。

奇异值检测 ,根据一定准则识别或者检测出数据集中的异常值,所谓异常值就是和数据集中的绝大多数据表现不一致。

智能推荐 ,这是数据挖掘一个很活跃的研究和应用领域,在各大电商网站中都会有各种形式推荐,比方说同类用户所购买的产品,与你所购买产品相关联的产品等。

对于每一种基本任务,除了了解它们具体可以做什么,重要的是要学习每一个任务有哪些行之有效的方法。举个例子来说,分类与预测,常用的方法有决策树、神经网络、最近邻、朴素贝叶斯、支持向量机、随机森林等,因而对于这些典型的方法具体原理是什么,怎么使用,各自有着什么样的特点,都应该深入地理解,接下来就是针对特定数据挖掘问题,思考其属于哪一种类型的任务,然后根据任务的具体特点,选择合适的方法来处理,并且对基于各种方法所建立的数据挖掘模型,要进行客观地评估,已选择最佳模型。

对于每一个基本任务具体有哪些方法,我会在后续进行总结。在这里,仅是说说数据挖掘主要解决什么问题,至于对于这些问题具体怎么来解决,针对每一种类型,会在后续的文章中逐一说来。

最后,借用这一段话收尾“ 数据就是 21 世纪的原油,需要加工才能产生价值。我们用数据做什么?怎样带来价值?目前常见的大概有五个方向:预测,推荐,问题识别,个性化,以及参考。预测,尤其是近期预测,以 Google Flu Trends 为代表,结合历史数据推断近期是否会爆发流感。内容推荐,以 Netflix 为代表,他们当时为电影评分推荐引擎专门设置了一个奖项。问题识别,如城市堵车问题,有一家叫做 Inrix 的公司在 37 个国家提供实时交通信息。个性化,以 LinkedIn Economic Graph 为代表。公共参考这一块,我很欣赏的一个非盈利组织 DataKind 做得很不错,他们在全球很多国家都提供数据点,涉及饥饿问题、气候问题等。另外美国政府在数据这方面也有很大投入,他们聘请了 DJ Patil 作为首席数据科学家,也建立了 data.gov 网站公布很多政务信息。

【公众号推荐】

【数据科学自媒体】,分享数据科学内容。

【广东大数据青年培养】数据挖掘基本任务

【互动交流】

【中国数据人】社群:290937046,陆勤微信:luqin360,欢迎朋友们添加,一起交流。

正文到此结束
Loading...