企业通常需要分析各种文件类型的大量文档。Apache Tika 是一个免费的开源库,它从各种各样的文档格式(比如 Microsoft® Word、RTF 和 PDF)中提取文本内容。了解如何在 InfoSphere® BigInsights™ 内的 MapReduce 作业中运行 Tika,以便并行分析大量二进制文档。探索如何为了分析大量较小文件而优化 MapReduce。学习创建一个 Jaql 模块,让非 Java 编程人员可以使用 MapReduce 技术来运行可扩展的 MapReduce 作业,从而处理、分析和转换 Hadoop 内的数据。
Sajad Izadi, 合作伙伴支持工程师, IBM
关闭 [x]
Sajad Izadi 是位于多伦多的 York University 的一名学生,致力于信息技术的研究。作为多伦多的信息管理业务合作伙伴团队的成员,他正在角逐 IBM 的多伦多软件开发实验室的实习机会。他的主要职责包括为业务合作伙伴对 ReadyFor DB2 应用程序执行技术验证,通过开发在 POC 中使用的演示而帮助大数据团队实施合作伙伴支持活动。他的兴趣包括数据库、数据仓库和应用程序开发。他是一位经过认证的 IBM DB2 10.1 管理员和 CCNA。
Benjamin G. Leonhardi, 软件工程师, IBM
关闭 [x]
Benjamin Leonhardi 是大数据/仓库合作伙伴支持团队的负责人。在这之前,他是德国伯布林根的 IBM 研发实验室的一名 InfoSphere Warehouse 软件开发人员。他还是一名数据挖掘、文本挖掘和挖掘报告解决方案开发人员。
Piotr Pruski, 合作伙伴支持工程师, IBM
关闭 [x]
Piotr Pruski 是 IBM 的信息管理业务合作伙伴生态系统团队的一位合作伙伴支持工程师。他主要关注的是通过联系和接洽业务合作伙伴,使他们能够使用 IM 产品组合中的产品(比如 InfoSphere BigInsights 和 InfoSphere Streams)来加速销售和合作伙伴的成功。
2015 年 5 月 12 日