转载

不容错过的精彩内容：2014 年 10 部最优秀的大数据和分析教程

注册使用 IBM Bluemix

这个云平台提供了许多免费的服务、运行时和基础架构，可以帮助您快速构建和部署下一个移动或 Web 应用程序。

在developerWorks，我们的大数据和分析内容可以帮助您利用工具和技术来驾驭和分析数据。我们回顾以下 2014 年 10 部最优秀的教程，排名不分先后。

“ 分析提供了业务和影响业务的力量的更生动画面。 ”

使用 IBM Big SQL over HBase

这个由两部分组成的教程系列将重点介绍表的创建、数据加载方法和查询处理。通过创建表和探讨加载数据的方式，我们将学习对 Hadoop over HBase 使用 IBM Big SQL 技术的基础知识。了解查询处理，以及如何通过 JDBC 连接到 Big SQL，从而运行 BIRT 或 Cognos 等商业智能和报告工具。

阅读这些教程

在 InfoSphere BigInsights Big SQL V3.0 中设置和使用联邦功能

通过数据源 Teradata、Oracle、Netezza 和 IBM DB2 for Linux, UNIX, and Windows 获取 Big SQL V3.0 联邦功能的介绍。该教程重点介绍了使用 Big SQL V3.0 联邦功能所需的基本配置，该功能使用户能够在单个 SQL 语句中向多个数据来源发送分布式请求。

阅读该教程

在 Hadoop 中使用 CombineFileInputFormat 处理小型的压缩文件

跟随详细示例，了解如何扩展和实现 CombineFileInputFormat 来在运行时读取 gzip（默认的编解码器）的内容。了解如何在 MapReduce 框架中使用 CombineFileInputFormat ，将映射程序使用的大量数据与 HDFS 中的文件的块大小分离。

阅读该教程

Hadoop 的 Oozie 工作流管理引擎的实际应用

借助 Apache Oozie（Apache Hadoop 生态系统的一个关键组成部分），可计划循环的电子邮件通知作业，或者计划使用各种语言编写的循环作业，这些语言包括 Java™、UNIX Shell、Apache Hive、Apache Pig 和 Apache Sqoop 等。了解这个框架在解决某些业务场景上的一些实际应用。

阅读该教程

云部署中的 Hadoop

Hadoop 和云似乎是理想的搭档。它们都包含灵活和分布式的处理和存储，它们都有一个配套的灵活的实例系统。它们使您能够根据数据和处理需求来扩展和缩减 Hadoop 集群。但它们也带来了许多不同的管理和计划挑战。克服这些难题，最大程度地利用基于云的 Hadoop 部署的优势。

阅读该教程

YARN 简介

尽管 Hadoop 被视为可靠的、可扩展的、富有成本效益的解决方案，但大型开发人员社区仍在不断改进它。最终，2.0 版提供了多项革命性的功能，其中包括 Yet Another Resource Negotiator (YARN)、HDFS Federation 和一个高度可用的 NameNode，它使 Hadoop 集群更加高效、强大和可靠。了解 YARN 和它相对于 Hadoop 中以前的分布式处理层的优势，并使用 YARN 的可伸缩性、效率和灵活性增强您的集群。

阅读该教程

将 Hive 用作 ETL 或 ELT 工具

Hadoop 似乎是所有大数据问题的答案。但对于大数据分析，传统的 SQL 和 MapReduce 技术存在不足。标准的提取、加载和转换工具无法高效地处理大数据。考虑使用 Apache Hive，它类似于 MapReduce。借助 Hive，您可以构建一个数据库、一个基于星形模式的松散的数据仓库，或者一个复杂的提取、转换和加载系统 - 即使您不是编程人员。

阅读该教程