36大数据专稿,原文作者:Eli Bressert 本文由36大数据翻译组-一朵小金花翻译,转载必须获得本站及译者的同意,拒绝任何不表明译者及来源的转载!
在数据科学,或者任何相关的量值域方面,我们都在为我们的项目努力理解和影响数据。这些数据通常属于一个正在进行的大项目,它们的工作流程就如下:
1、获得数据
2、浏览数据
3、研究/创造数据产品
4、微调、发布产品
5、清洗数据
每一步都是至关重要的,必须按照这个顺序,否则提前作出的假设和决定都会影响顺序步骤,造成结果更好或者更坏。数据收集是最重要的步骤,度量方法决定着我们如何利用这些数据。在量值分析的子领域,它是学术科学还是工业科学,数据收集的过程可以彻底的改变它。相反的,探索数据分析的阶段都是普遍的,一个项目过程可以分成几个基础的部分:基本统计、图像、假设构想、对最好的模型和方法作出评估。
继续前面的内容之前,要警告读者一点:永远不要相信数据的表面价值。数据分析过程中要对可疑的反常的数据持有怀疑和敬而远之的态度。不仅如此,你要确保对数据的理解是正确的。例如,你可能看到数据写着“Date”且附值“2015-01-04”,然后你发现这是格林威治的标准时间而不是你本地的时间。但是,你找了一个模型误解读了这个数据,在这种情况下,无论你对数据预测的有多好,结果都是错误的。虽然有时候模型是没有问题的,它也能在错的情况下预测出对的结果。
Anscombe’s 四重奏:绘图的力量
一些数据的属性非常明显的可以看到,通过基本统计查看。举一个Anscombe’s 四重奏的经典例子。下面这个数据集包含四组不同数据(I, II, III, 和 IV),每组包含X和Y两个元素。
尽管4组数据间有明显的不同,汇总统计发现线形的直线对应的数在小数点后第二位或者第三位是相同的。
Group I, Group II, Group III, and Group IV
x平均值:9.0
y平均值:7.5
x方差:11.00
y方差:4.13
x和y的关联系数:0.816
线性回归系数:/( Y = 3.00 + 0.50/,X /)
下面的图表1非常清楚的看到数组的不同。如果没有可视化数据,我们可以假设每组数据都是一样的。
想象每组数据有几百万行。人工查看这么大容量的数据是很没有效率的。通过简单的图表可视化这些数据,展示对的内容,是这个绘图过程的关键。根据该原则生成的统计和图表可以在本文找到。
Anscombe 的四重奏不可能发生在我们处理的数据中,但是我们可以接近这个数据。获得足够接近的数据,推断出与所求数据的不同之处和相同之处都是很小的,而假设会消极地影响项目的发展。
展示数据
一个简单的图表就和一句简单的话类似:简洁明了,切中要害。一个复杂的图表就像一串句子,太长了以至于用户漏掉一些信息。因此,保持图表简单是非常重要的。当你制作图表的时候,最好能够获得信息,快速完成数据的探索。
在 Stitch Fix,我们采访了许多候选者,留了问题让他们思考。例如:给他们一个带有一般标签的数据集,这个数据集可能是生成的或者是匿名的。候选者可以找到数据中一些细微的差别,我们最希望看到他们找到一些我们没有发现的差别,并展示给我们。这些挑战没有绝对正确或者错误的答案。我们只是想看到候选者对这些数据做什么,以及他们在不明显差别的情况下如何解决问题。
作为一个头脑清醒的检查者,首先,我们将会自己完成这些挑战,以确保我们要求候选者所做的事是可行的。在一次测试中,我看着一组制成表的数据集,当时我们还没有告诉候选者。我提出了以下的图表并对这个数据作出预测。我们将数据的每一列作为一个元素。
从上面的图表中,我可以快速的估计出表中的哪一行是表示二进制的,哪一行是表示分类的,哪一行是表示连顺的。我还能确认他们的分布,这将影响我们对后面的分析阶段作出不同的假设。当元素非常多的时候,观察元素之间成对的相关性可能很不方便。这时相关性矩阵就是一种非常巧妙的方法,可以在一堆密集的数据中看到成对的相关性。强相关是蓝色部分,相反的,弱相关是红色部分。没有相关性的是白色部分。这个矩阵告诉了我们数据中元素之间的关系。
我使用PCA(种量分析),找出元素子集,尝试解释数据中变化的部分。这是一个简单但是强大的工具。使用散点图是理想的方法,能可视化被明显分成两部分的数据的PCA情况。这种情况下,我们有了大量明显的发现,所以我做了一个直方图,分别用PC1和PC2表示直方图的顶部和右边,确保我不会错过任何明显的密度。
在这点上,我能作出一些关于数据和模型的具有引导意义的假设。如果我在生产阶段使用这个假设,我现在就可以估算出应该使用哪一个模型和如何做下去。
总结
简明扼要总结一下,图表的作用对于探索数据是强大的,图表应该和基本的叙述性统计结合在一起。保持图形的简单是为了最大化的清楚数据。这两个工具将会展示予我们所需要的不同的属性,将帮助研究取得阶段性的进展以及生产的发展。
在文章的最后,我们将会讨论如何通过抽样优化数据探索分析阶段。
作者:Eli Bressert 本文所有的图表均使用Seaborn制作,一款来自Python统计图表的包。原文标题:Exploratory Data Analysis and Graphics
End.