商业智能 (BI) 提供了企业组件的不同执行情况的洞察:
您通过从与您的业务直接或间接相关的原始数据中提取高级业务信息来获取此洞察。
考虑一个在线业务场景的示例。您有大量产品要使用许多 Web 资源来推广,比如博客、按点击付费 (PPC) 广告、登录页面和您的公司网站。
阅读您博客的潜在客户可能进一步浏览您的登录页面,然后注册或购买一款产品。PPC 广告也会将用户引导至登录页面。
回页首
登录页面是针对一种特定用途而设计的网页,比如一场销售特定产品的市场营销活动。每个登录页面都会将用户引导至您网站上的某个特定的产品页。感兴趣的用户可从该页面购买该产品。登录页面通常不同于公司网站,公司网站会介绍该公司各种各样的活动、产品和服务。
通过所有这些营销手段,您的目的是吸引潜在客户以各种各样的方式访问您的网站。您网站的流量很大,但如何评估您的营销工具的表现?
IBM SPSS Statistics 可帮助回答您吸引尽可能多的用户注册和购买的战略,如以下问题:
BI 处理原始数据并提取高级业务信息来回答这些问题。本系列将介绍能够找到这些问题的答案的 SPSS Statistics 特性。
对业务而言,一部分非常重要的原始形式的数据就是 Web 浏览会话数据。大多数 Web 应用程序都会尝试获取此数据。
用户会话数据可识别用户在一个会话期间访问了哪些资源。例如,一个用户会话从用户到达您的一篇博客时开始,到用户注册或离开时结束。会话数据包含用户采取的到达您的营销资源的路径信息。
清单 1 是从一个示例会话中提取的原始形式的数据。本文整篇文章都会使用这个示例会话数据。示例数据可从本文的下载部分获得。
出于本文中的测试用途,示例数据量少于 200 个会话。在具有正常的 PPC 营销活动、博客、登录页面和公司网站的实际应用中,每小时可能生成数十万个会话。一年的会话数据可分类为大数据。
清单 1. 原始会话数据示例
PPC Blog LandingPage LPType Signup Login Purchase SessionTime 0 2 1 4 0 0 1 94 3 0 3 2 0 0 0 16 4 0 2 5 1 0 0 29 1 0 5 5 1 0 0 19 0 1 4 3 0 0 1 103 5 0 1 4 1 0 0 16 0 4 3 2 1 0 1 109 2 0 4 3 1 0 0 8 0 3 5 5 1 0 1 87 5 0 1 4 0 0 0 16 0 0 0 0 0 1 1 136
清单 1 中的每行数据表示一个用户会话。本文的统计分析中使用的示例会话数据就是按这种方式进行组织的:
PPC
列中的值为 0,这意味着此会话没有从任何 PPC 营销活动开始。PPC 营销活动编号 1 到 5 表示 5 场 PPC 营销活动。 Blog
,而且它在第一行中的值为 2,这意味着用户通过阅读编号为 2 的博客来开始浏览会话。博客编号 1 到 5 表示 5 篇博客。第 2 列中的 0 表示没有任何博客活动的会话。 LandingPage
也使用了 0 到 5 的值。0 表示没有登录页面时的会话,1 到 5 表示登录页面 1 到 5。 Signup
。值 1 表示用户已注册,0 表示用户在此会话期间没有注册。 Purchase
。如果用户购买了一款产品,那么第六列中的值为 1。 Login
。以前注册的用户再次访问网站时就会产生一个登录会话。这种类型的会话不会从博客或 PPC 营销活动开始。 回页首
统计分析中的第一步是描绘一个计数表。计数表也称为 频率表 。SPSS Statistics 提供了一种创建频率表的简单方式,我们稍后就会看到。但是,您首先需要将示例数据加载到 SPSS Statistics 中。
SPSS Statistics 有两个窗口:IBM SPSS Statistics Data Editor 和 IBM SPSS Viewer。图 1 中显示的 IBM SPSS Statistics Data Editor 窗口在本文中称为 数据编辑器 窗口。此窗口将会处理数据,运行统计过程,并配置表和图形。
图 1. 数据编辑器窗口
图 2 中所示的 IBM SPSS Viewer 窗口显示了输出图、表和运行统计过程的结果。在本文中,SPSS Viewer 窗口被称为 查看器 窗口。
图 2. 查看器窗口
raw-data.zip
文件 (也可在本文的下载部分中找到)下载到您选择的文件夹中。提取 raw-data.txt 文件。 raw-data.txt
文件加载到 SPSS Statistics 中,请单击 数据编辑器 窗口工具栏上的 File Open 图标(图 3 中带红圈的图标)。然后,在 Open Data 对话框中,导航到 raw-data.txt
文件。 图 3. 加载示例数据文件
这将打开一个文本导入向导。该向导包含 6 步,它支持将各种各样的文本文件导入 SPSS 中。创建的示例 raw-data.txt
文件在将文本数据导入到 SPSS 时只需极少的配置。接受文本导入向导中的所有默认值,除了第 2 步中的一个值。
图 4. 文本导入向导的第 2 步
示例数据将被加载到 数据编辑器 窗口中。 数据编辑器 窗口有两个选项卡: Data View 和 Variable View 选项卡。图 5 显示了 data view 选项卡,其中包含清单 1 中的 8 个数据列( PPC
、 Blog
、 LandingPage
、 LPType
、 Signup
、 Purchase
、 Login
和
SessionTime
)。
图 5. 将示例数据加载到 SPSS 中
根据 SPSS,清单 1 中每一列是一个变量。切换到 Variable View 选项卡(如图 6 所示),将同样的 8个数据列视为变量。每个变量显示在 Variable View 选项卡上的一行中。
图 6 显示,每行包含多个变量属性,比如 Name 、 Type 、 Width 、 Decimals 和 Label 。在整个系列的文章中,都会探索用变量来展示 SPSS Statistics 丰富的统计、算术和逻辑特性。
图 6. 显示了示例数据中的变量的 Variable view 选项卡
要开始统计分析,首先需要生成一个频率表。
图 7. Analyze 菜单项的 Descriptive Statistics 子菜单下的 Frequencies 选项
这将打开 Frequencies 对话框窗口,如图 8 所示。
图 8. Frequencies 对话框
对话框中的选项来配置您想要显示的频率表。
要在频率表中包含您的任何变量( PPC
、 Blog
、 LandingPage
等),可从左侧列表中选择这些变量,然后单击箭头按钮。
图 9 显示选择了 PPC
和 Blog
变量并移动到右侧窗格。
图 9. 选择 PPC
和 Blog
变量来绘制频率表
Frequencies 对话框中的其他按钮(Statistics、Charts、Format、Style 和 Bootstrap)将在本系列的其他文章中介绍。
查看器窗口(图 2)现在显示了每个变量的频率表,如图 10 所示。
图 10. 查看器窗口中显示了 PPC
和 Blog
变量的频率表
因为频率表就是一个简单的计数表,所以 PPC
变量的频率表显示了 PPC
变量的每个值(也即对于 PPC 营销活动 1 到 5 中的每一个)的会话的计数和百分比。
PPC
= 0 的会话频率最大,因为它表示未从 PPC
开始的会话(比如那些从任何博客文章开始的会话)。所有非 PPC 会话都包含在 PPC
= 0 行中。
另外,请注意,当 PPC
= 1 时, PPC
频率表中提到的频率为 14。这意味着 14 位访问者从 PPC
1 营销活动到达了您的网站。另外请注意百分比列。 PPC
为 1 时,百分比列显示 9.1%,这意味着 14 位访问者占 198(访问者总数)的 9.1%。这显示在 Frequency 列中的最后一行中。
频率表还在最后一列中显示了累积百分比,显示了每个 PPC
和 Blog
值的正常百分比。请注意,第一行 ( PPC
= 0) 中的累积百分比为 61.1%,第二行 ( PPC
= 1) 中的累积百分比为 68.8%,相当于 61.1 + 7.1%( PPC
= 1 行的 Percent 列)。累积数字会将以前的所有数字添加到当前列中。
查看图 10 中显示的 PPC
和 Blog
频率表的计数和百分比数据,可以做出以下业务级推断:
PPC
= 0 的百分比列为 61.1%。这表示来自非 PPC
营销活动的来源的所有访问者的百分比。剩余的 38.9%(比所有流量的 1/3 稍多)来自 PPC
营销活动。 Blog
频率表的 Blog = 0
行的百分比列为 50.5%。这表示来自非博客的来源的所有访问者的百分比,表示所有流量中的 49.5%(接近一半)来自博客。 这些是基本推断,让您对在线流量的来源有所了解。
回页首
您可以使用相同的示例数据来回答该问题: 我们的博客将用户推向登录页面的效果如何?
您需要确定有多少用户在阅读博客后单击访问了登录页面。这也是一个频率计数统计场景,您需要在其中统计特定情况的数量。
但是,这比第一种情况稍微复杂一点,在第一种情况下,只统计了通过 PPC 或博客到达网站的流量,未考虑以后发生的情况。要回答这个稍微复杂点的问题,可以使用 SPSS Statistics 为每篇博客生成一个条形图。
图 11. Graph 菜单的 Chart Builder 子菜单
窗口,如图 12 所示。
图 12. Chart builder 窗口
Chart builder 窗口有 3 个主要部分。
chart builder 的左上侧部分是变量区域,包含来自示例数据的所有 8 个变量。
右上侧部分是图表预览区域。您可以将想要在条形图中使用的变量从变量区域拖到图表预览区域中。Chart Builder 的下半部分有 4 个选项卡:
如果选择 Bar,您有 8 种类型的条形图可供选择。已选择最简单的条形图,如图 12 中的红圈中所示。图 13 显示了在将红圈内的条形图从 Gallery 选项卡拖到图表预览区域中后, Chart Builder 的外观。
图 13. 选择条形图
结果为图 14 中显示的图表。SPSS Statistics 自动选择了 Count 作为 Y 轴的变量。Count 是默认选择的,但 SPSS Statistics 也支持您选择其他选项来在 Y 轴上显示: percentage 、 mean 、 sum 。请注意,SPSS Statistics 根据示例数据的性质来选择正确的选项。
图 14. 选择 Blog
作为 X 轴变量后的 Chart Builder
Blog
条形图将在 查看器 窗口中打开,如图 15 所示。 图 15. 显示了博客的条形图
您可能已经注意到,图 15 中显示的博客条形图只显示了访问每篇博客的用户数量,没有显示其他任何信息。您可以增强该图表,让它变得更有用。
图 16. 选择了 Groups/Point ID 选项卡的 Chart Builder
这个竖条集群应与另一个称为 集群变量 的变量结合使用,使集群变量的每个值在集群中都有一个竖条。图表预览区域的右上角显示了一个 Cluster on X 矩形。
图 17. 选择了 Clustering variable on X 选项的 Chart Builder
LandingPage
作为集群变量,让每个登录页面在每篇博客的竖条集群中都有一个竖条。将 LandingPage
变量从变量区域拖到 Cluster on X 矩形中,如图 18 所示。 图 18. 选择 X 轴上的集群变量
这个集群化的条形图显示了每个登录页面从每篇博客获得的流量(计数)。图 19显示了每篇博客的一组竖条。博客 2 的最长竖条为黄色,根据图 19中显示的图例,它表示登录页面编号 4。因此,登录页面 4 从博客 2 获得了最多的流量。类似地,登录页面 2 从博客 3 获得了最多的流量。集群化的条形图在从原始数据中提取业务级信息的过程中很有用。
图 19. 集群化的条形图显示了每个登录页面从每篇博客获取的流量
采用类似的方式,您还可以在 X 轴上使用 Signup
和 Purchase
变量,通过集群为每篇博客生成集群化的条形图,如图 20 和图 21 所示。为此,将 Signup
和 Purchase
变量拖放到 Cluster on X 框中,而不是拖放 LandingPage
变量。
图 20. 集群化的条形图显示了在阅读一篇博客后注册的流量
图 21. 集群化的条形图显示了在阅读一篇博客后购买了产品的流量
以这种方式查看数据时,很容易看到哪些博客引导了更多用户注册和购买产品。
回页首
交叉表是数据的一种表列表示,可帮助您获得业务级洞察。交叉表与各种线图和条形图形成了优秀的 BI 组合。因此,是时候将同样的原始示例数据放在交叉表中,创建一个交叉表来显示访问某篇特定博客的用户的统计数据了。
所示。
图 22. 使用 SPSS Statistics 中的 Crosstabs 选项
SPSS Statistics 生成一组交叉表,其中包含有多少访问了一篇博客的用户前进到一个登录页面面,有多少用户注册,以及其中有多少用户购买了产品等详细的计数。
将打开 Crosstabs 窗口,如图 23 所示。
图 23. Crosstabs 对话框
LandingPage
是行变量, Signup
和 Purchase
是列变量。 LandingPage
,单击指向 Row(s) 列表的箭头。 LandingPage
变量将出现在 Row(s) 列表中,如图 24 所示。 图 24. 选择了 LandingPage
变量作为行变量
Signup
变量并单击指向 Column(s) 列表的箭头。对 Purchase
变量重复这些步骤。 图 25. 选择 Signup
和 Purchase
作为列变量
Blog
作为控制变量,您会为每篇博客生成一个交叉表。该交叉表显示了有多少用户在阅读一篇博客后访问了每个登录页面,注册或购买了产品。每篇博客是一个层,这正是 crosstabs 对话框将控制变量称为层的原因。只要您愿意,可以拥有任意多个控制变量,为每个控制变量的每个值生成一个交叉表层。 在变量列表中选择 Blog
,然后按下指向 Layer 矩形内的列表的箭头,如图 26 所示。
图 26. 选择 Blog
作为层变量
图 27. Crosstabs:Cell display 对话框
您将返回到 Crosstabs 对话框窗口。
Signup
和 Purchase
变量分别有一个交叉表。 Signup
变量的交叉表如图 28 所示。
图 28. Signup 的交叉表
Purchase 变量的交叉表如图 29 所示。
图 29. Purchase 的交叉表
图 28中的第一个交叉表名为 “ LandingPage * Signup * Blog Crosstabulation ”。该标题定义了它的功能:以 LandingPage
、 Signup
和 Blog
变量的不同组合来显示数据。
标题后的一行是 “ Blog:Total ”, 它表示这个交叉表显示的 LandingPage
结果没有考虑 Blog
变量的任何特定值。它显示了 Blog
变量的所有可能值(从 0 到 6)的总结果。
您可以使用同一个交叉表来显示 Blog
变量的每个值的单独结果。但对于现在,重要的是要了解所有 Blog
值的组合结果。
访问者 没有 到达登录页面时的会话统计数据
图 28中的交叉表的第一行表示 LandingPage
= 0 时的会话数据,这是一个会话 不 包含任何登录页面时的情况。因此,第一行显示了没有访问任何登录页面的用户数,无论他们是否阅读了一篇博客。请注意,在图 28中,总共有 23 个会话不包含任何登录页面(这显示在图 28 中的 Total 列中的第一行)。如第 3 列所示,其中 Signup
= 1,23 个访问者中有两个注册时没有经过登录页面。 Signup
= 0 列中显示的 23 个用户中的其他 21 个用户没有注册。
查看每个计数下面显示的百分比数字,该百分比表示占每列底部显示的总数的百分比。您会看到此值,是因为您在图 27中选择了 Column 选项。例如,11.6% 位于 Total 列的第一行中的 23 下方。现在请注意,198 是 Total 列最底部一行显示的总数,它实际上是我们的示例数据中所有类型的会话总数。23 是 198 的 11.6%,这就是 SPSS Statistics 将 11.6% 放在 23 下方的原因。
采用类似的方式,您可以解释图 28中的交叉表的第 2 行,它表示 LandingPage
= 1 时的会话数据。这一行实际上是用户访问登录页面 1 时的会话的统计数据,无论他们是否来自博客。登录页面 1 有 30 位访问者,其中 18 位已注册(12 位没有)。类似地,第 3 行显示登录页面 2 被 35 位访问者访问,其中 19 位访问者已注册,等等。
最受欢迎的登录页面是 4,它有 66 位访问者(占总共 198 个会话的 33%),其中 36 位访问者已注册。
要从图 28中所示的第一个交叉表中查看各篇博客的统计数据,可双击 查看器 窗口中第一个交叉表内的任何地方。该窗口将发生改变,如图 30 所示。
图 30. LandingPage * Signup * Blog Crosstabulation 在双击时改变了外观
交叉表的第 2 行中的 Blog:Total 文本现在为一个下拉列表。单击 Total 可查看显示的 Blog
变量的所有值(0 到 5)。从下拉列表中选择 0,可看到如图 31 所示的交叉表。
图 31. LandingPage * Signup * Blog Crosstabulation 显示了 Blog = 0 时的统计数据
图 31 中所示的 Blog = 0 交叉表显示了一个会话不包含任何博客时的计数。
例如,查看图 31 中第二行计数。该行针对的是登录页面 1。它显示共有 23 位访问者浏览到登录页面 1,但没有阅读任何博客,其中 13 位已注册,剩余 10 位没有注册。
比较图 28 与图 31 也很有趣。图 28显示有 30 位访问者到达了登录页面 1,无论他们是否来自博客。图 31显示这 30 位中有 23 位不是来自任何博客。
您可以使用图 31 中所示的 Blog 下拉列表来选择 Blog
变量的每个值,以便了解哪篇博客吸引了更多的流量,并将该流量引导至一个登录页面或导致用户注册。
您还可以使用图 29来了解哪篇博客和登录页面能更高效地销售产品。
SPSS Statistics 还生成了一个交叉表来显示 PPC
的统计数据。可以在图 26中选择使用 PPC
作为层变量,而不是 Blog。
回页首
本文介绍了 IBM SPSS 中简单的图形、表和交叉表。您可以使用本文中的示例来处理原始数据,以便了解您的业务发生了什么。
回页首
SPSS Statistics 可帮助您深入了解影响您的业务的原因、事物和因素。本系列第 2 部分将进一步探索变量、统计过程和测试的高级用法。
回页首
描述 | 名字 | 大小 |
---|---|---|
本教程的示例数据 | raw-data.zip | 1KB |