转载

IBM Business Analytics 最佳实践: SPSS Collaboration and Deployment Services - 五大用途

简介

IBM SPSS 产品组合包含多个不同的预测分析相关产品。这些产品包括 IBM SPSS Modeler、IBM SPSS Statistics、IBM SPSS Analytical Decision Management、IBM SPSS Data Collection 等。但是,您可能不知道,IBM SPSS Collaboration and Deployment Services (C&DS) 产品可用来扩展和增强其他这些 IBM SPSS 应用程序所提供的基础功能。各种 IBM SPSS 产品与 C&DS 之间的集成可通过安装一个 C&DS “适配器” 来启用,该适配器打包在各种 IBM SPSS 基础产品中(比如 Modeler Server Adapters for C&DS)。

图 1:各种 IBM SPSS 产品可通过 IBM SPSS C&DS 进行增强

IBM Business Analytics 最佳实践: SPSS Collaboration and Deployment Services - 五大用途

本文将介绍使用 C&DS 来增强您的预测分析解决方案的 5 种方法,讨论 5 种最有价值、最常用的 C&DS 特性。

  1. 分析存储库
  2. 自动化/流程管理
  3. 计分
  4. 资产生命周期管理/对象升级
  5. 模型管理

其他一些特性也为客户提供了一些价值,您可以在本文的参考资料部分的 IBM SPSS C&DS 产品文档链接中了解更多的信息。

回页首

#1 – 分析存储库

C&DS 产品提供了一个分析存储库,可使用它管理各种分析资产。这些资产通常是其他 IBM SPSS 产品生成的文件。但是,您还可以存储和管理其他类型的文件,比如 PDF 和 XML。C&DS 存储库包含版本/标签功能,可帮助管理各种资产的生命周期。存储库资产存储在一个企业关系数据库中,比如 IBM DB2,这使得 C&DS 能够利用一些数据库功能,比如安全、备份和还原。

让我们分析一下一个常见的 IBM SPSS Modeler 用户场景,了解 C&DS 存储库能为您提供什么帮助。最初,您可能有一位分析师来处理 Modeler 客户端产品。在这个阶段,分析师仅在客户端机器本地保存和加载所有文件。尽管这在功能层面上很不错,但它有一些限制。

  • 如果我有多位分析师,我希望他们能够轻松地共享资产,该怎么办?
  • 如果我的分析师开发了一个预测模型,希望保存和共享一个特定版本,同时继续执行其他增强,该怎么办?
  • 我如何备份分析师的工作,这样,在他们的机器失败时,我就不会丢失正在开发的预测模型,我该怎么办?
  • 如果我希望限制对一些工件的访问,同时允许访问其他工件,该怎么办?

这时 C&DS 存储库就会派上用场。一个或多个分析师可创建各种工件,这些工件现在可从一个中央位置轻松地管理(比如共享、版本控制、添加标签、保护和备份),如图 2 所示。

图 2:多个用户将文件存储在 C&DS 分析存储库中

IBM Business Analytics 最佳实践: SPSS Collaboration and Deployment Services - 五大用途

除了方便共享存储的资产、版本控制和添加标签之外,C&DS 存储库还支持使用用户、角色和权限的概念来管理对存储的资产的访问。还有一些内在的锁定功能可避免处理相同资产的用户之间发生冲突。现在可保证所有用户都在以受控的方式处理合适的工件。

回页首

#2 – 自动化/流程管理

自动化是 C&DS 产品提供的另一个主要功能。使用 C&DS 自动化,您可以为反复发生的任务定义一个工作流,计划何时启动工作,并接收有关发生的重要事件的通知。

我们继续查看分析师示例。假设分析师开发了某种预测模型或流,他们现在打算运行它来确定预测结果。同样地,分析师可在其客户端本地手动加载和运行想要的流文件。尽管这对开发用途足够了,但在效率、可靠性和可预测性都至关重要的生产环境中,它可能不尽人意。一种增强是引入一个 Modeler Server,分析师可在 Modeler Server 上远程加载和运行流文件(图 3)。

图 3:分析师在远程 Modeler 服务器上运行 Modeler 流

IBM Business Analytics 最佳实践: SPSS Collaboration and Deployment Services - 五大用途

这具有多种优势,其中包括

  • 在更强大的服务器级硬件上运行预测流。
  • 通过在离输入数据更近的地方运行预测流(而不是向每个客户端拉入数据)来改善数据访问。
  • 提高了效率和可用性。多个客户端可在共享服务器上运行预测流,如果一个服务器失败,另一个服务器可以继续工作。

情况变得更好了,但除了让分析师手动运行预测流之外,如果我计划在每周日晚上运行并生成一个可供所有人在周一早上看到的结果报告,该怎么办?这时 C&DS 自动化功能就会派上用场。如果将分析工件存储在 C&DS 存储库中,那么您可以使用 C&DS 自动化功能将一个 作业 配置为按指定的时间表自动运行。

您现在拥有一个全自动化的解决方案。C&DS 自动化使您能够设计和创建包含您选择的各种 作业步骤 的自定义作业。然后,您可以计划这些作业基于各种标准来运行。此外,可以安装 C&DS Remote Process Server 并将它用作 代理 ,以便允许在任何一般性服务器机器上执行远程自定义操作。可以通过配置 C&DS,将工作发送给各种 IBM SPSS 服务器,比如 Modeler、Statistics 或一般性服务器,如图 4 所示。

图 4:C&DS 自动化可跨各种服务器集来提交工作

IBM Business Analytics 最佳实践: SPSS Collaboration and Deployment Services - 五大用途

自动化作业可创建会存储回存储库中的工件。为了方便针对此活动的通信,C&DS 还包含一个通知服务,可使用它来发送电子邮件,比如在发生有意义的事件时,或者在完成作业或创建报告时。

回页首

#3 – 计分

计分是指使用具有真实输入数据的预测模型来生成预测结果。这些预测结果可以是各种信息,从潜在客户的信誉到保险索赔的欺诈检测。使用 C&DS 计分,您可以将模型预测结果集成到您的业务流程中,以便生成真实的客户值。

一般而言,预测模型的计分可分为两个较大的数据类别。

  1. 对静止数据进行计分
  2. 对活动数据进行计分

图 5:数据类别和关联的计分技术

IBM Business Analytics 最佳实践: SPSS Collaboration and Deployment Services - 五大用途

C&DS 产品包含在使用静止数据或活动数据(或二者的组合)时很有用的计分技术。分析静止数据的常见技术包括 C&DS 自动化服务作业、SPSS Modeler Batch 和 Modeler Scoring UDF。对于活动数据,可利用 IBM SPSS Solution Publisher、IBM SPSS Analytics Toolkit for InfoSphere Streams 和 C&DS Scoring Service。

在前面的场景中,我介绍了如何使用 C&DS 功能在 Modeler server 上自动运行 Modeler 流。这是使用 C&DS 对静止数据计分的示例。使用一个 C&DS 作业来自动化 Modeler 流的计分,这通常称为 批量计分

在某些情况下,使用静止数据并不够。假设您有一个呼叫中心,操作员在其中解决客户的电话投诉。您希望预测客户是否可能离开,如果是,则为他们提供特别优惠。在这个场景中,操作员需要能够基于客户仍在打电话时的实时客户输入,对活动数据进行计分。在这里,您可以修改您的呼叫中心应用程序,调用 C&DS 计分服务 Web 服务 API 生成和返回一个计分。

图 6:呼叫中心应用程序实时调用 C&DS Scoring Service API

IBM Business Analytics 最佳实践: SPSS Collaboration and Deployment Services - 五大用途

使用 C&DS 计分服务来发起和返回分数,这通常称为 实时计分 。动态输入数据可在计分请求中传递,所有必要的静态客户数据都可以通过服务器从关联的数据来源检索,如图 6 所示。

在这些示例中,我演示了两种最常见的场景。

  1. 使用 C&DS 自动化服务和 Modeler 服务器的批量计分。
  2. 使用 C&DS 计分服务的实时计分。

有关各种计分技术的更多信息,请参阅本文 “参考资料” 部分的 IBM SPSS C&DS 产品文档链接。

回页首

#4 – 资产生命周期管理/对象升级

常见的预测分析部署将涉及以下活动,

  1. 开发一个新预测模型。
  2. 测试该模型。
  3. 部署该模型用于生产用途。

这个 Dev > Test > Prod 场景是一个常见的工作流。该问题变成了您如何跨这些区域管理预测分析资产?同样地,C&DS 可派上用场。对于较小的单 C&DS 服务器拓扑结构,您可以使用 C&D 存储库工具(比如文件夹、文件名、标签和访问控制)管理这些不同的部署区域,如图 7 所示。

图 7:具有用于开发和生产的不同存储库的单一 C&DS 服务器

IBM Business Analytics 最佳实践: SPSS Collaboration and Deployment Services - 五大用途

对于包含多个 C&DS 服务器的较大拓扑结构,C&DS 提供了对象升级功能,允许您将资产从一个 C&DS 服务器上的分析存储库 升级 到另一个 C&DS 服务器的分析存储库,如图 8 所示。这支持为每个部署区域提供一个单独的 C&DS 服务器,而提供一种受控方式来管理分析资产在 C&DS 服务器之间的移动。

图 8:针对每个部署区域的单独的 C&DS 服务器

IBM Business Analytics 最佳实践: SPSS Collaboration and Deployment Services - 五大用途

C&DS 对象升级支持包含多个可用于管理流程的特性。一些示例包括,

  • 使用可重用的升级策略来定义升级的业务逻辑。
  • 使用版本标签通知来发起升级流程。
  • 限制范围,以便仅升级一个文件版本和关联的依赖项版本。
  • 通过 升级对象 安全操作特权来控制升级活动。
  • 同时支持 立即 升级和 延迟 升级。

C&DS 对象升级支持还允许您跨整个分析部署区域来适当地管理和控制资产流。

回页首

#5 – 模型管理

目前在示例场景中,我介绍了如何使用 C&DS 来增强您的生产力,从初始模型开发一直到在呼叫中心应用程序中使用实时计分。现在我们在生产环境中有了一个模型,而且正在使用它生成可操作的洞察,比如包含特别优惠信息的呼叫中心回复。对某些人而言,似乎我们的工作已经完成了。但是,预测分析领域工作的人认为,生产模型和数据将会不断 流动 。这是源于所存在的 变化 性质 - 人类行为、您公司的流程、特别优惠类型和竞争对手的行动等因素都在不断改变。

为了解决这些变化,应该有一个战略来持续比较和分析旧模型和数据与新模型和数据。同样地,C&DS 所包含的模型管理支持可在这里派上用场。C&DS 模型管理涉及到使用、评估和刷新模型。C&DS 模型管理可用于控制所部署的模型的生命周期,包含对以下功能的支持。

  • 模型刷新
  • 模型评估
  • 冠军挑战者
  • 计分

图 9:用于评估/刷新已部署的模型的 C&DS 模型管理选项

IBM Business Analytics 最佳实践: SPSS Collaboration and Deployment Services - 五大用途

使用 C&DS 模型管理,可以执行许多任务,比如培训模型、对模型排名、查找对操作数据计分的最佳模型。通过不断自动比较模型并选择最佳模型(冠军挑战者),您可继续实现有效的结果。这如图 9 所示。

模型评估和比较可侧重于准确性、获益或信赖度。

  • 准确性 - 模型的准确性反映了正确预测到的目标响应的百分比。拥有较高的正确预测百分比的模型优于拥有较低百分比的模型。
  • 获益 - 获益统计数据是模型性能的一个指标。此度量指标比较来自一个模型的结果与未使用模型而获得的结果。使用模型时的结果改进称为获益。比较两种模型时,首选在指定的百分位上具有较高获益值的模型。
  • 信赖度 - 模型信赖度反映模型的可信性。此方法检查新数据与模型所基于的培训数据之间的相似性。信赖度值的范围为 0 到 1,较高的值表示两个数据集中的预测指标之间更相似。比较两个模型时,拥有较高信赖度值的模型基于与新数据更相似的培训数据,这使它更可信和优先。

使用 C&DS 模型管理功能,您现在能够控制整个预测模型生命周期。有关 C&DS 模型管理的更多信息,请参阅本文参考资料部分的 IBM SPSS C&DS 产品文档链接。

回页首

结束语

IBM SPSS Collaboration and Deployment Services 产品可用于扩展和增强其他 IBM SPSS 应用程序的基础功能。尽管 C&DS 产品丰富多样,而且提供了许多功能,但本文介绍了 5 种使用 C&DS 来增强预测分析解决方案的常见方式。

  1. 分析存储库
  2. 自动化/流程管理
  3. 计分
  4. 资产生命周期管理/对象升级
  5. 模型管理

希望在阅读本文后,您能够更好地理解 IBM SPSS Collaboration and Deployment Services 产品所提供的优势。

回页首

致谢

非常感谢以下人员参与准备或评审本文的技术内容和准确性:Alex Jones,C&DS 产品管理;Tom Kochie,C&DS 开发经理;和 Duane Wiebe,C&DS 质量保证。

正文到此结束
Loading...