数据分析的第一步。不是分析数据!在我的理论框架里:数据分析指的是将数据转化为价值的一个完整过程。
作为一个完整过程,应该有很多环节。分析数据就是其中的一个环节而已,该环节所承担的主要任务是:对数据的统计分析或者机器学习。这就是数据分析和分析数据之间的关系。
这就是为什么我说:数据分析的第一步,不是分析数据,而是:梳理业务目标!
什么叫做梳理业务目标?就是要把业务目标的定义搞清晰。那如何判断是否清晰呢?我有一个简单的方法论。那就是:如果您能说得清楚Y和X,我就认为您的业务目标是定义清晰的,否则就不是。什么是Y?什么是X?
……
在 Spark 上方便处理大型时间序列数据集的工具包,类似pandas 、matlab中小型数据集处理方法,值得一提的是,spark-ts 还提供 python 调用接口,方便 pyspark 用户使用。
Statpedia是一个可以高效实现数据可视化的平台。在此平台中,你可以通过简单的操作作出漂亮的数据可视化图表,而且可以根据自己的需求利用高级的自定义功能修改图表的细节以符合特定需要,制作完图表还可以通过链接分享、嵌入到其他地方,另外还可以以图片形式导出图表。
原文链接: http://statpedia.com/
以上简讯由数据工匠提供,感兴趣的小伙伴可以通过扫描简报后的二维码链接原文,更多数据科学资讯尽在数据工匠,扫描关注Datartisan数据工匠公众号!如果你看到什么与“数据科学”有关的好文或者信息科技优质的文章,可以随手转发给我们,让更多热爱数据科学的小伙伴一起成长!