Watson Analytics 是 IBM 在 2015 年最新推出的基于 SaaS(软件即服务)的数据分析服务。它的一个重要特点就是依托 Watson 认知技术构建的创新云分析平台为用户提供基于自然语言的自助式分析服务,它的服务包括数据准备、数据探索、数据预测等。它能帮助用户理解数据,发现隐藏在数据中的有用信息,为用户带来低复杂性的高级分析功能,能够指引数据探索,进行自动预测分析,也能让用户轻松的构建分析仪表盘。
目前,Watson Analytics 的自然语言部分还不支持中文,但用户可以通过简单的英文列举出自己感兴趣的问题,Watson Analytics 将依据用户的提问展现用户可能感兴趣的一系列问题,让用户选择,与用户进行交互,当用户选择了其中一个问题后,相应的图表就会展示出来,而且 Watson Analytics 允许用户依据自己喜好选择不同的图表展示方式。如果用户想要深入分析,可以利用 Predict 功能进行预测分析。
用户可以打开 Watson Analytics 官网 ,再点击页面右上角有个”Sign In”来登录(参考图 1),如果是第一次登录可以通过点击“Create an IBM id”来创建账号(参考图 2)。
当用户打开 Watson Analytics 后,用户首先看到的是 Welcome 页面(参考图 3),所有的功能都从这个页面开始。
Explore 能够根据输入数据为用户生成很多简单易懂的图表,通过这些图表能让用户一目了然地了解当前数据的分布情况,有助于发现决定业务成败的关键因素及建模。
Predict 能依据用户的数据进行预测分析,整个预测分析基于复杂的模型,由 WA 进行自动模型匹配,再通过图表和文字描述让用户在几乎没有统计知识的背景下也能看懂分析结果。
WA 允许用户在 Explore 和 Predict 中收集感兴趣的图表,然后在 Assemble 中组合起来,添加更多的文字,图表进行综合分析,并将分析结果共享给其他用户。
用户可以通过 Refine 来过滤调整数据,比如修改数据类型或者给字段重命名,对数据进行计算生成新的数据等。用户除了可以在 Refine 中修改过滤数据,也可以在 Refine 中看到 WA 对每一列数据进行分析的结果,比如每一列数据的数据分布,空值的比例以及质量评分。
Watson Analytics 区别于传统软件的除了用丰富的图表来表达枯燥难懂的统计结果,还在关键的节点添加了一些辅助帮助信息,如图 3 的灰色半透明圆圈,点击后会有对旁边的 Add 功能的简单介绍。而对于熟悉了这些使用的用户,又可以通过点击右上角帮助里的隐藏键来关掉这些提示。
通过点击在 Welcome 页面中间的加号来添加数据,会提示你去创建 Explore,Predict,Assemble 或者对现有数据进行 Refine,选择以上其中一个之后,会继续提示要求上传数据,如果已经有上传的数据,会出现数据列表。也可以在下面的“Or add your data”来直接添加数据,如图 5 所示。“Drop file or browse”和“Upload data”允许用户通过直接拖动或者选择本地数据来添加数据,也可以选择 Watson Analytics 提供给用户的 sample data。当数据上传完成后,用户可以在 Welcome 页面看到新上传的数据。
当数据上传后,在 Welcome 页面选择该数据,一个对话框将会出现,直接点击 predict 后,就会进入创建 prediction 的页面,如图 6 所示
首先需要给要新建的 prediction 起一个名字,然后点击 target,选出你想作为目标预测分析的 field。WA 会自动给出默认的 target,你可以对其进行增删改,target 数目最多限定为 5 个。也可以通过选择“Edit this workbook’s field properties”这个链接对 field 的特性进行修改,然后点击 Create,WA 将会自动分析数据,再运用统计算法自动进行描述统计和推断统计,如图 7 所示。
WA 自动分析数据结束后,页面会自动跳转到 Prediction 页面后,你将会看到如图 8 所示的内容,整个分析结果主要由 3 部分组成,最上面的部分称为 Ribbon, 下面又分组两部分: Spiral visualization 和 Detail visualization。在 Ribbon 里,可以添加、修改或删除你要分析的 target, 也可以看到当前这份数据的质量评分以及数据间的相关性分析结果。在 Spiral visualization 中,螺旋图会将 top key driver 的信息展示给用户,螺旋图上的每一个 bubble 代表了一个 predictor,右侧的 Detail visualization 就对 predictor 进行详细展示,用户可以通过这些图表知道 predictor 在那些方面影响了 target,越排在前面的 predictor 对 target 的影响就越大。下面将会详细介绍这三个部分。
第一个分区显示现有的 target 个数,如图 9 所示,如果对默认给出的 target 不满意,点击编辑可以进行 target 的重新选择,增加或者删除。
第二个分区是 Data quality,点击查看可以获得整个数据的 Data quality report。第一眼看到的那个大的数字就是 WA 对整体数据的评分,显示了这个数据质量分数。这里还会显示有哪些 field 包含超过 25%的 missing value,哪些 field 包含 outliers,哪些包含 skewed distributions,这样可以总体了解整个数据的分布情况,有利于更好地进行数据分析预测。用户还可以进入了子项目的分布来了解更详细的内容,比如 missing value 分布。想要回到 Data quality 的 field 分布,可以通过点击左侧 Data quality 分数的圆圈返回。
Top Field Associations 会列出两个 field 之间的相关性,这样可以比较直观地了解数据间的关系,比如两个输入都是连续型,两个输入都是分立(category)类型,或者混合型,会通过不同的图形来展示,比如柱状图,点状图等。
如果用户在 Targets 中设置了三个 target,在 Ribbon 上会将按字母排序三个 target,用户可以通过点击“View”来查看某个 target 或者点击“Export”将与 target 相关的图表导出到 PPT 文件中,如图 11 所示。
左下方的螺旋状图就是 Spiral 了,中心点是 target,一圈的圆点从里到外按照 predictive strength 的降序排列,越靠近圆心,predictive strength 越大,也代表这个 predictor 预测分析这个 target 越好。Predictive Strength 最大的三个 predictor 将会用红、绿和黄表示出来,分别对应右侧缩略图的前三个,颜色也一致。左侧可以通过选择单一 field,两个 field, 或者 combination 来选择 one way 的 Smart Report, two way 的 Smart Report 和 Tree 模型,这几个模型的应用会在后续文章里具体描述。
用户可以通过 Detail visualization 上下的箭头来选取或者通过点击 View all 来浏览不同输入构建的模型结果。
最下端列出了全部的 field,默认是按照 prediction 中的角色排序,即 target, input, Record ID, None,也可以用不同的排序方式来显示,如图 14 所示,按照 Label 或者 interestingness 排序。如果 field 很多,而向后拉 field list 会比较耗时,可以在最前面的搜索图标上点击,然后输入想查找的 field 包含的内容,就可以过滤出想要的 field,为了方便查询,输入框里是不区分大小写字母的。
当用户通过 Ribbon 上的 Targets 修改 target,或者其他方式造成了当前 prediction 的重新 build,就会相应产生一个新的 version,可以通过点击左上角的绿色区域然后选择 VERSIONS,从而在各个 version 的 prediction 之间进行切换。
如果想重新回到 Welcome 页面,可以点击 Prediction 页面正中的 Prediction name(本例中是 Test1),选择 Welcome 选项即可,如图 16 所示。
本文对 Watson Analytics 进行了介绍,并且重点介绍了 prediction 的创建和页面结果展示,让用户能快速入手,达到一个抛砖引玉的作用,在后期我们将对 Watson Analytics 进一步介绍更深入的内容。