转载

使用 IBM SPSS Statistics 实现商业智能

实现商业智能的统计过程

商业智能 (BI) 提供了企业组件的不同执行情况的洞察:

  • 您如何接近您的潜在客户?
  • 影响业务绩效的因素是什么?
  • 如何预测实施策略和想法的结果,以带来改进。

您通过从与您的业务直接或间接相关的原始数据中提取高级业务信息来获取此洞察。

考虑一个在线业务场景的示例。您有大量产品要使用许多 Web 资源来推广,比如博客、按点击付费 (PPC) 广告、登录页面和您的公司网站。

阅读您博客的潜在客户可能进一步浏览您的登录页面,然后注册或购买一款产品。PPC 广告也会将用户引导至登录页面。

回页首

什么是登录页面?

登录页面是针对一种特定用途而设计的网页,比如一场销售特定产品的市场营销活动。每个登录页面都会将用户引导至您网站上的某个特定的产品页。感兴趣的用户可从该页面购买该产品。登录页面通常不同于公司网站,公司网站会介绍该公司各种各样的活动、产品和服务。

通过所有这些营销手段,您的目的是吸引潜在客户以各种各样的方式访问您的网站。您网站的流量很大,但如何评估您的营销工具的表现?

IBM SPSS Statistics 可帮助回答您吸引尽可能多的用户注册和购买的战略,如以下问题:

  • 与您的 PPC 活动相比,有多少流量是从博客引到您站点的?
  • 您的博客如何将潜在客户推向您的登录页面?
  • 有多少用户在访问了登录页面后注册和购买了产品?
  • 您的 PPC 活动是否具有不错的 ROI?

BI 处理原始数据并提取高级业务信息来回答这些问题。本系列将介绍能够找到这些问题的答案的 SPSS Statistics 特性。

Web 浏览会话数据

对业务而言,一部分非常重要的原始形式的数据就是 Web 浏览会话数据。大多数 Web 应用程序都会尝试获取此数据。

用户会话数据可识别用户在一个会话期间访问了哪些资源。例如,一个用户会话从用户到达您的一篇博客时开始,到用户注册或离开时结束。会话数据包含用户采取的到达您的营销资源的路径信息。

清单 1 是从一个示例会话中提取的原始形式的数据。本文整篇文章都会使用这个示例会话数据。示例数据可从本文的下载部分获得。

出于本文中的测试用途,示例数据量少于 200 个会话。在具有正常的 PPC 营销活动、博客、登录页面和公司网站的实际应用中,每小时可能生成数十万个会话。一年的会话数据可分类为大数据。

清单 1. 原始会话数据示例

PPC Blog  LandingPage LPType Signup Login Purchase SessionTime 0 2 1  4 0 0 1  94 3 0 3  2 0 0 0  16 4 0 2  5 1 0 0  29 1 0 5  5 1 0 0  19 0 1 4  3 0 0 1  103 5 0 1  4 1 0 0  16 0 4 3  2 1 0 1  109 2 0 4  3 1 0 0  8 0 3 5  5 1 0 1  87 5 0 1  4 0 0 0  16 0 0 0  0 0 1 1  136

清单 1 中的每行数据表示一个用户会话。本文的统计分析中使用的示例会话数据就是按这种方式进行组织的:

  • 第一个会话在 PPC 列中的值为 0,这意味着此会话没有从任何 PPC 营销活动开始。PPC 营销活动编号 1 到 5 表示 5 场 PPC 营销活动。
  • 第二列是 Blog ,而且它在第一行中的值为 2,这意味着用户通过阅读编号为 2 的博客来开始浏览会话。博客编号 1 到 5 表示 5 篇博客。第 2 列中的 0 表示没有任何博客活动的会话。
  • 第三列 LandingPage 也使用了 0 到 5 的值。0 表示没有登录页面时的会话,1 到 5 表示登录页面 1 到 5。
  • 第四列使用了 1 到 5 的值来标识登录页面的类型。1 表示一个具有最少的图形和更多描述性文本的登录页面。而 5 表示一个包含大量图形和最少文本的登录页面。
  • 第五列是 Signup 。值 1 表示用户已注册,0 表示用户在此会话期间没有注册。
  • 第六列是 Purchase 。如果用户购买了一款产品,那么第六列中的值为 1。
  • 第七列是 Login 。以前注册的用户再次访问网站时就会产生一个登录会话。这种类型的会话不会从博客或 PPC 营销活动开始。
  • 最后的第八列是总会话时间。总会话时间是从用户访问第一个资源(单击一个 PPC 广告)直到最后一个操作(用户注册)所经历的时间。

回页首

从原始数据提取业务级信息

统计分析中的第一步是描绘一个计数表。计数表也称为 频率表 。SPSS Statistics 提供了一种创建频率表的简单方式,我们稍后就会看到。但是,您首先需要将示例数据加载到 SPSS Statistics 中。

将示例数据加载到 SPSS Statistics 中

SPSS Statistics 有两个窗口:IBM SPSS Statistics Data Editor 和 IBM SPSS Viewer。图 1 中显示的 IBM SPSS Statistics Data Editor 窗口在本文中称为 数据编辑器 窗口。此窗口将会处理数据,运行统计过程,并配置表和图形。

图 1. 数据编辑器窗口

使用 IBM SPSS Statistics 实现商业智能

图 2 中所示的 IBM SPSS Viewer 窗口显示了输出图、表和运行统计过程的结果。在本文中,SPSS Viewer 窗口被称为 查看器 窗口。

图 2. 查看器窗口

使用 IBM SPSS Statistics 实现商业智能
  1. raw-data.zip 文件 (也可在本文的下载部分中找到)下载到您选择的文件夹中。提取 raw-data.txt 文件。
  2. 要将 raw-data.txt 文件加载到 SPSS Statistics 中,请单击 数据编辑器 窗口工具栏上的 File Open 图标(图 3 中带红圈的图标)。然后,在 Open Data 对话框中,导航到 raw-data.txt 文件。

    图 3. 加载示例数据文件

    使用 IBM SPSS Statistics 实现商业智能
  3. 单击 Open

    这将打开一个文本导入向导。该向导包含 6 步,它支持将各种各样的文本文件导入 SPSS 中。创建的示例 raw-data.txt 文件在将文本数据导入到 SPSS 时只需极少的配置。接受文本导入向导中的所有默认值,除了第 2 步中的一个值。

    1. 单击第 1 步中的 Next ,无需更改任何默认值。
    2. 在向导对话框的第 2 步中,为 Are variable names included at the top of your file? 选项选择 Yes ,如图 4 所示,因为 raw-data.txt 文件在第一行中包含变量名。

      图 4. 文本导入向导的第 2 步

      使用 IBM SPSS Statistics 实现商业智能
    3. 在剩余步骤中单击 Next ,指导最后的第 6 步,在这一步中单击 Finish

示例数据将被加载到 数据编辑器 窗口中。 数据编辑器 窗口有两个选项卡: Data ViewVariable View 选项卡。图 5 显示了 data view 选项卡,其中包含清单 1 中的 8 个数据列( PPCBlogLandingPageLPTypeSignupPurchaseLogin SessionTime )。

图 5. 将示例数据加载到 SPSS 中

使用 IBM SPSS Statistics 实现商业智能

根据 SPSS,清单 1 中每一列是一个变量。切换到 Variable View 选项卡(如图 6 所示),将同样的 8个数据列视为变量。每个变量显示在 Variable View 选项卡上的一行中。

图 6 显示,每行包含多个变量属性,比如 NameTypeWidthDecimalsLabel 。在整个系列的文章中,都会探索用变量来展示 SPSS Statistics 丰富的统计、算术和逻辑特性。

图 6. 显示了示例数据中的变量的 Variable view 选项卡

使用 IBM SPSS Statistics 实现商业智能

生成一个频率表

要开始统计分析,首先需要生成一个频率表。

  1. 从 Analyze 菜单中选择 Descriptive Statistics > Frequencies 选项,如图 7 所示。

    图 7. Analyze 菜单项的 Descriptive Statistics 子菜单下的 Frequencies 选项

    使用 IBM SPSS Statistics 实现商业智能

    这将打开 Frequencies 对话框窗口,如图 8 所示。

    图 8. Frequencies 对话框

    使用 IBM SPSS Statistics 实现商业智能
  2. 使用 Frequencies

    对话框中的选项来配置您想要显示的频率表。

    要在频率表中包含您的任何变量( PPCBlogLandingPage 等),可从左侧列表中选择这些变量,然后单击箭头按钮。

    图 9 显示选择了 PPCBlog 变量并移动到右侧窗格。

    图 9. 选择 PPCBlog 变量来绘制频率表

    使用 IBM SPSS Statistics 实现商业智能

    Frequencies 对话框中的其他按钮(Statistics、Charts、Format、Style 和 Bootstrap)将在本系列的其他文章中介绍。

  3. 单击 OK

    查看器窗口(图 2)现在显示了每个变量的频率表,如图 10 所示。

    图 10. 查看器窗口中显示了 PPCBlog 变量的频率表

    使用 IBM SPSS Statistics 实现商业智能

因为频率表就是一个简单的计数表,所以 PPC 变量的频率表显示了 PPC 变量的每个值(也即对于 PPC 营销活动 1 到 5 中的每一个)的会话的计数和百分比。

PPC = 0 的会话频率最大,因为它表示未从 PPC 开始的会话(比如那些从任何博客文章开始的会话)。所有非 PPC 会话都包含在 PPC = 0 行中。

另外,请注意,当 PPC = 1 时, PPC 频率表中提到的频率为 14。这意味着 14 位访问者从 PPC 1 营销活动到达了您的网站。另外请注意百分比列。 PPC 为 1 时,百分比列显示 9.1%,这意味着 14 位访问者占 198(访问者总数)的 9.1%。这显示在 Frequency 列中的最后一行中。

频率表还在最后一列中显示了累积百分比,显示了每个 PPCBlog 值的正常百分比。请注意,第一行 ( PPC = 0) 中的累积百分比为 61.1%,第二行 ( PPC = 1) 中的累积百分比为 68.8%,相当于 61.1 + 7.1%( PPC = 1 行的 Percent 列)。累积数字会将以前的所有数字添加到当前列中。

从频率表创建业务级推断

查看图 10 中显示的 PPCBlog 频率表的计数和百分比数据,可以做出以下业务级推断:

  • 带来最多流量的 PPC 营销活动是 PPC 2 和 5。
  • 最受欢迎的博客文章是 3 和 4。
  • 在频率表中, PPC = 0 的百分比列为 61.1%。这表示来自非 PPC 营销活动的来源的所有访问者的百分比。剩余的 38.9%(比所有流量的 1/3 稍多)来自 PPC 营销活动。
  • Blog 频率表的 Blog = 0 行的百分比列为 50.5%。这表示来自非博客的来源的所有访问者的百分比,表示所有流量中的 49.5%(接近一半)来自博客。

这些是基本推断,让您对在线流量的来源有所了解。

回页首

使用 SPSS Statistics 显示条形图

您可以使用相同的示例数据来回答该问题: 我们的博客将用户推向登录页面的效果如何?

您需要确定有多少用户在阅读博客后单击访问了登录页面。这也是一个频率计数统计场景,您需要在其中统计特定情况的数量。

但是,这比第一种情况稍微复杂一点,在第一种情况下,只统计了通过 PPC 或博客到达网站的流量,未考虑以后发生的情况。要回答这个稍微复杂点的问题,可以使用 SPSS Statistics 为每篇博客生成一个条形图。

  1. 要生成条形图,可以选择 Graphs > Chart Builder ,如图 11 所示。

    图 11. Graph 菜单的 Chart Builder 子菜单

    使用 IBM SPSS Statistics 实现商业智能
  2. 您可能看到一条警告消息,要求您在绘制图形之前设置度量级别。单击 OK 忽略该消息。将打开 Chart Builder

    窗口,如图 12 所示。

    图 12. Chart builder 窗口

    使用 IBM SPSS Statistics 实现商业智能

    Chart builder 窗口有 3 个主要部分。

    chart builder 的左上侧部分是变量区域,包含来自示例数据的所有 8 个变量。

    右上侧部分是图表预览区域。您可以将想要在条形图中使用的变量从变量区域拖到图表预览区域中。Chart Builder 的下半部分有 4 个选项卡:

    • Gallery
    • Basic Elements
    • Groups/Point ID
    • Titles/Footnotes
  3. 单击 Gallery 选项卡绘制条形图。 Gallery 选项卡显示了用于构建图表的各种图形元素,比如 Bar、Line、Area。选择您想要构建的图表类型。选择您喜欢的图表类型后,您将看到该类型的每种图表的分类。

    如果选择 Bar,您有 8 种类型的条形图可供选择。已选择最简单的条形图,如图 12 中的红圈中所示。图 13 显示了在将红圈内的条形图从 Gallery 选项卡拖到图表预览区域中后, Chart Builder 的外观。

    图 13. 选择条形图

    使用 IBM SPSS Statistics 实现商业智能
  4. 条形图需要 X 轴和 Y 轴的变量。对于本示例,将 Blog 变量(图 13 中的红圈内的变量)拖到 X 轴区域(显示为红色箭头)。

    结果为图 14 中显示的图表。SPSS Statistics 自动选择了 Count 作为 Y 轴的变量。Count 是默认选择的,但 SPSS Statistics 也支持您选择其他选项来在 Y 轴上显示: percentagemeansum 。请注意,SPSS Statistics 根据示例数据的性质来选择正确的选项。

    图 14. 选择 Blog 作为 X 轴变量后的 Chart Builder

    使用 IBM SPSS Statistics 实现商业智能
  5. 单击 OKBlog 条形图将在 查看器 窗口中打开,如图 15 所示。

    图 15. 显示了博客的条形图

    使用 IBM SPSS Statistics 实现商业智能

您可能已经注意到,图 15 中显示的博客条形图只显示了访问每篇博客的用户数量,没有显示其他任何信息。您可以增强该图表,让它变得更有用。

  1. 选择 Graphs > Chart Builder 来打开 Chart Builder 对话框。
  2. 选择 Chart Builder 下半部分中的 Groups/Point ID 选项卡,如图 15 所示。

    图 16. 选择了 Groups/Point ID 选项卡的 Chart Builder

    使用 IBM SPSS Statistics 实现商业智能
  3. 选择 Clustering variable on X 选项,如图 16所示。这个集群选项为每篇博客的竖条生成一个集合或 集群 。图 17中的图表预览区域现在显示了每篇博客的一个竖条集群,而不只是您在图 16中看到的一个竖条。

    这个竖条集群应与另一个称为 集群变量 的变量结合使用,使集群变量的每个值在集群中都有一个竖条。图表预览区域的右上角显示了一个 Cluster on X 矩形。

    图 17. 选择了 Clustering variable on X 选项的 Chart Builder

    使用 IBM SPSS Statistics 实现商业智能
  4. 使用 LandingPage 作为集群变量,让每个登录页面在每篇博客的竖条集群中都有一个竖条。将 LandingPage 变量从变量区域拖到 Cluster on X 矩形中,如图 18 所示。

    图 18. 选择 X 轴上的集群变量

    使用 IBM SPSS Statistics 实现商业智能
  5. 选择 OK查看器 窗口中出现了一个集群化的条形图。

    这个集群化的条形图显示了每个登录页面从每篇博客获得的流量(计数)。图 19显示了每篇博客的一组竖条。博客 2 的最长竖条为黄色,根据图 19中显示的图例,它表示登录页面编号 4。因此,登录页面 4 从博客 2 获得了最多的流量。类似地,登录页面 2 从博客 3 获得了最多的流量。集群化的条形图在从原始数据中提取业务级信息的过程中很有用。

    图 19. 集群化的条形图显示了每个登录页面从每篇博客获取的流量

    使用 IBM SPSS Statistics 实现商业智能

采用类似的方式,您还可以在 X 轴上使用 SignupPurchase 变量,通过集群为每篇博客生成集群化的条形图,如图 20 和图 21 所示。为此,将 SignupPurchase 变量拖放到 Cluster on X 框中,而不是拖放 LandingPage 变量。

图 20. 集群化的条形图显示了在阅读一篇博客后注册的流量

使用 IBM SPSS Statistics 实现商业智能

图 21. 集群化的条形图显示了在阅读一篇博客后购买了产品的流量

使用 IBM SPSS Statistics 实现商业智能

以这种方式查看数据时,很容易看到哪些博客引导了更多用户注册和购买产品。

回页首

使用 SPSS Statistics 的交叉表

交叉表是数据的一种表列表示,可帮助您获得业务级洞察。交叉表与各种线图和条形图形成了优秀的 BI 组合。因此,是时候将同样的原始示例数据放在交叉表中,创建一个交叉表来显示访问某篇特定博客的用户的统计数据了。

  1. Analyze 菜单中选择 Descriptive Statistics > Crosstabs ,如图 22

    所示。

    图 22. 使用 SPSS Statistics 中的 Crosstabs 选项

    使用 IBM SPSS Statistics 实现商业智能

    SPSS Statistics 生成一组交叉表,其中包含有多少访问了一篇博客的用户前进到一个登录页面面,有多少用户注册,以及其中有多少用户购买了产品等详细的计数。

    将打开 Crosstabs 窗口,如图 23 所示。

    图 23. Crosstabs 对话框

    使用 IBM SPSS Statistics 实现商业智能
  2. 交叉表包含行和列,所以您需要选择想要使用哪些变量作为交叉表中的行,哪些变量作为列。在本示例中, LandingPage 是行变量, SignupPurchase 是列变量。
    1. Crosstabs 对话框左侧的变量列表中选择 LandingPage ,单击指向 Row(s) 列表的箭头。 LandingPage 变量将出现在 Row(s) 列表中,如图 24 所示。

      图 24. 选择了 LandingPage 变量作为行变量

      使用 IBM SPSS Statistics 实现商业智能
    2. 现在选择 Signup 变量并单击指向 Column(s) 列表的箭头。对 Purchase 变量重复这些步骤。

      图 25. 选择 SignupPurchase 作为列变量

      使用 IBM SPSS Statistics 实现商业智能
  3. 您还需要指定一个控制变量(也称为层变量)来为控制变量的每个值获得一个交叉表。例如,如果您使用 Blog 作为控制变量,您会为每篇博客生成一个交叉表。该交叉表显示了有多少用户在阅读一篇博客后访问了每个登录页面,注册或购买了产品。每篇博客是一个层,这正是 crosstabs 对话框将控制变量称为层的原因。只要您愿意,可以拥有任意多个控制变量,为每个控制变量的每个值生成一个交叉表层。

    在变量列表中选择 Blog ,然后按下指向 Layer 矩形内的列表的箭头,如图 26 所示。

    图 26. 选择 Blog 作为层变量

    使用 IBM SPSS Statistics 实现商业智能
  4. 在 SPSS 能够从您的示例数据创建有用的交叉表之前,您还需要告诉 SPSS 在交叉表中显示实际值和百分比。单击 Cell ,也就是 Crosstabs 对话框右上角从上至下第三个按钮。您会看到 Crosstabs:Cell display 对话框,如图 27 所示。

    图 27. Crosstabs:Cell display 对话框

    使用 IBM SPSS Statistics 实现商业智能
  5. 图 27 中, Percentages 选项集合包含一个名为 Columns 的选项。选择它并单击 Continue

    您将返回到 Crosstabs 对话框窗口。

  6. 单击 OK 。稍等片刻,您会在 查看器 窗口中看到两个交叉表,您之前在图 25中的列变量列表中包含的 SignupPurchase 变量分别有一个交叉表。 Signup

    变量的交叉表如图 28 所示。

    图 28. Signup 的交叉表

    使用 IBM SPSS Statistics 实现商业智能

    Purchase 变量的交叉表如图 29 所示。

    图 29. Purchase 的交叉表

    使用 IBM SPSS Statistics 实现商业智能

解释第一个交叉表:LandingPage、Signup 和 Blog

图 28中的第一个交叉表名为 “ LandingPage * Signup * Blog Crosstabulation ”。该标题定义了它的功能:以 LandingPageSignupBlog 变量的不同组合来显示数据。

标题后的一行是 “ Blog:Total ”, 它表示这个交叉表显示的 LandingPage 结果没有考虑 Blog 变量的任何特定值。它显示了 Blog 变量的所有可能值(从 0 到 6)的总结果。

您可以使用同一个交叉表来显示 Blog 变量的每个值的单独结果。但对于现在,重要的是要了解所有 Blog 值的组合结果。

访问者 没有 到达登录页面时的会话统计数据

图 28中的交叉表的第一行表示 LandingPage = 0 时的会话数据,这是一个会话 包含任何登录页面时的情况。因此,第一行显示了没有访问任何登录页面的用户数,无论他们是否阅读了一篇博客。请注意,在图 28中,总共有 23 个会话不包含任何登录页面(这显示在图 28 中的 Total 列中的第一行)。如第 3 列所示,其中 Signup = 1,23 个访问者中有两个注册时没有经过登录页面。 Signup = 0 列中显示的 23 个用户中的其他 21 个用户没有注册。

查看每个计数下面显示的百分比数字,该百分比表示占每列底部显示的总数的百分比。您会看到此值,是因为您在图 27中选择了 Column 选项。例如,11.6% 位于 Total 列的第一行中的 23 下方。现在请注意,198 是 Total 列最底部一行显示的总数,它实际上是我们的示例数据中所有类型的会话总数。23 是 198 的 11.6%,这就是 SPSS Statistics 将 11.6% 放在 23 下方的原因。

包含登录页面的会话的统计数据

采用类似的方式,您可以解释图 28中的交叉表的第 2 行,它表示 LandingPage = 1 时的会话数据。这一行实际上是用户访问登录页面 1 时的会话的统计数据,无论他们是否来自博客。登录页面 1 有 30 位访问者,其中 18 位已注册(12 位没有)。类似地,第 3 行显示登录页面 2 被 35 位访问者访问,其中 19 位访问者已注册,等等。

最受欢迎的登录页面是 4,它有 66 位访问者(占总共 198 个会话的 33%),其中 36 位访问者已注册。

来自一篇特定博客的会话统计数据

要从图 28中所示的第一个交叉表中查看各篇博客的统计数据,可双击 查看器 窗口中第一个交叉表内的任何地方。该窗口将发生改变,如图 30 所示。

图 30. LandingPage * Signup * Blog Crosstabulation 在双击时改变了外观

使用 IBM SPSS Statistics 实现商业智能

交叉表的第 2 行中的 Blog:Total 文本现在为一个下拉列表。单击 Total 可查看显示的 Blog 变量的所有值(0 到 5)。从下拉列表中选择 0,可看到如图 31 所示的交叉表。

图 31. LandingPage * Signup * Blog Crosstabulation 显示了 Blog = 0 时的统计数据

使用 IBM SPSS Statistics 实现商业智能

图 31 中所示的 Blog = 0 交叉表显示了一个会话不包含任何博客时的计数。

例如,查看图 31 中第二行计数。该行针对的是登录页面 1。它显示共有 23 位访问者浏览到登录页面 1,但没有阅读任何博客,其中 13 位已注册,剩余 10 位没有注册。

比较图 28 与图 31 也很有趣。图 28显示有 30 位访问者到达了登录页面 1,无论他们是否来自博客。图 31显示这 30 位中有 23 位不是来自任何博客。

您可以使用图 31 中所示的 Blog 下拉列表来选择 Blog 变量的每个值,以便了解哪篇博客吸引了更多的流量,并将该流量引导至一个登录页面或导致用户注册。

您还可以使用图 29来了解哪篇博客和登录页面能更高效地销售产品。

SPSS Statistics 还生成了一个交叉表来显示 PPC 的统计数据。可以在图 26中选择使用 PPC 作为层变量,而不是 Blog。

回页首

结束语

本文介绍了 IBM SPSS 中简单的图形、表和交叉表。您可以使用本文中的示例来处理原始数据,以便了解您的业务发生了什么。

回页首

后续教程

SPSS Statistics 可帮助您深入了解影响您的业务的原因、事物和因素。本系列第 2 部分将进一步探索变量、统计过程和测试的高级用法。

回页首

下载

描述 名字 大小
本教程的示例数据 raw-data.zip 1KB
正文到此结束
Loading...