注册使用 IBM Bluemix
这个云平台提供了许多免费的服务、运行时和基础架构,可以帮助您快速构建和部署下一个移动或 Web 应用程序。
在developerWorks,我们的大数据和分析内容可以帮助您利用工具和技术来驾驭和分析数据。我们回顾以下 2014 年 10 部最优秀的教程,排名不分先后。
“ 分析提供了业务和影响业务的力量的更生动画面。 ”
这个由两部分组成的教程系列将重点介绍表的创建、数据加载方法和查询处理。通过创建表和探讨加载数据的方式,我们将学习对 Hadoop over HBase 使用 IBM Big SQL 技术的基础知识。了解查询处理,以及如何通过 JDBC 连接到 Big SQL,从而运行 BIRT 或 Cognos 等商业智能和报告工具。
阅读这些教程
通过数据源 Teradata、Oracle、Netezza 和 IBM DB2 for Linux, UNIX, and Windows 获取 Big SQL V3.0 联邦功能的介绍。该教程重点介绍了使用 Big SQL V3.0 联邦功能所需的基本配置,该功能使用户能够在单个 SQL 语句中向多个数据来源发送分布式请求。
阅读该教程
跟随详细示例,了解如何扩展和实现 CombineFileInputFormat
来在运行时读取 gzip(默认的编解码器)的内容。了解如何在 MapReduce 框架中使用 CombineFileInputFormat
,将映射程序使用的大量数据与 HDFS 中的文件的块大小分离。
阅读该教程
借助 Apache Oozie(Apache Hadoop 生态系统的一个关键组成部分),可计划循环的电子邮件通知作业,或者计划使用各种语言编写的循环作业,这些语言包括 Java™、UNIX Shell、Apache Hive、Apache Pig 和 Apache Sqoop 等。了解这个框架在解决某些业务场景上的一些实际应用。
阅读该教程
Hadoop 和云似乎是理想的搭档。它们都包含灵活和分布式的处理和存储,它们都有一个配套的灵活的实例系统。它们使您能够根据数据和处理需求来扩展和缩减 Hadoop 集群。但它们也带来了许多不同的管理和计划挑战。克服这些难题,最大程度地利用基于云的 Hadoop 部署的优势。
阅读该教程
尽管 Hadoop 被视为可靠的、可扩展的、富有成本效益的解决方案,但大型开发人员社区仍在不断改进它。最终,2.0 版提供了多项革命性的功能,其中包括 Yet Another Resource Negotiator (YARN)、HDFS Federation 和一个高度可用的 NameNode,它使 Hadoop 集群更加高效、强大和可靠。了解 YARN 和它相对于 Hadoop 中以前的分布式处理层的优势,并使用 YARN 的可伸缩性、效率和灵活性增强您的集群。
阅读该教程
Hadoop 似乎是所有大数据问题的答案。但对于大数据分析,传统的 SQL 和 MapReduce 技术存在不足。标准的提取、加载和转换工具无法高效地处理大数据。考虑使用 Apache Hive,它类似于 MapReduce。借助 Hive,您可以构建一个数据库、一个基于星形模式的松散的数据仓库,或者一个复杂的提取、转换和加载系统 - 即使您不是编程人员。
阅读该教程
借助 SciKit(一种基于 Python 的强大的机器学习包,用于模型构建和评估),学习如何为模拟的客户产品购买历史记录构建和应用一个模型。在示例场景中,基于每次客户购买的具体产品和相应的产品文本描述,构造一个模型来将音乐收听者的个人资料信息分配给各个客户。
阅读该教程
学习如何集成 JavaScript 对象表示法 (JSON) 数据(比如 InfoSphere BigInsights 生成的数据)和 R,R 语言提供了一个强大的工具来对数据执行统计分析,并以图形方式显示结果。
阅读该教程
使用 R 语言,您可以分析和可视化数据中的细微差别。本文演示了如何使用 R 获取和分析质量度量指标。了解如何对指标随时间的波动情况设计有意义的描述,了解它们如何揭示影响客户体验的问题。本文提供了一个示例,该示例展示了 R 如何帮助您创建数据可视化表示,从而共享有关您的度量指标的洞察。
阅读该教程