转载

BDTC PPT集萃(二):BAT、搜狐、新浪等互联网企业的大数据实践

从2008年60人规模的“Hadoop in China”技术沙龙,到当下数千人规模的行业技术盛宴,八届BDTC(大数据技术大会)忠实地描绘了大数据领域内的技术热点,沉淀了无数极具价值的行业实战经验。同时,2015年12月10至12日,第九届中国大数据技术盛会将一如既往的引领当前领域内的技术热点,分享行业实战经验。

为了更好地洞悉行业发展趋势,了解企业技术挑战,在BDTC 2015召开前夕,我们将带大家一起对历届大会沉淀的知识进行挖掘,分享各IT巨头在大数据领域的探索之路。第二期,我们将关注国内互联网企业的声音。

BDTC PPT集萃(二):BAT、搜狐、新浪等互联网企业的大数据实践 搜狐移动研发部经理刘佳:基于全网内容的新闻客户端推荐系统

(PPT下载)——2014年第八届BDTC

刘佳介绍搜狐移动端新闻推荐的两个特点:广告系统,搜狐追求转化率、辅助指标ROI、用户效果。搜索系统,搜索引擎中,追求对内容理解、内容爬取、文本关键词主题提取、文本分类、主题分类、内容索引、垃圾过滤、page rank、反作弊等等。随后,刘佳介绍新闻推荐系统中三俗内容的处理方式。他表示,三俗内容可以提高18%-20%的转化率,但是对用户的粘性有很大的影响。

BDTC PPT集萃(二):BAT、搜狐、新浪等互联网企业的大数据实践 阿里巴巴数据平台事业部ODPS技术专家徐冬:ODPS MapReduce 对外开放实践 

(PPT下载)——2014年第八届BDTC

徐冬主要谈到ODPS(Open Data Process System)在阿里云巴巴的使用情况;在ODPS上搭建LOT模型;MapReduce实现过程;MapReduce API介绍以及MapReduce API开放用户实践。ODPS作为阿里大规模数据处理的底层平台,每日提交数十万计任务,底层是跨数据中心的超大规模集群,支持多种编程模型、范式。

BDTC PPT集萃(二):BAT、搜狐、新浪等互联网企业的大数据实践 携程资深软件工程师廖晓格:让大数据更实时和可视化

(PPT下载) ——2014年第八届BDTC

携程每天的日志量40T,总条数上千亿条,每天用户行为数据30T,并且业务数据飞速增长,所有数据都需要及时反馈给用户,应用或监控。携程大数据平台架构与Hadoop生态环境类似,底层使用HDFS,上面是调度系统,并且通过MapReduce、Spark做离线数据分析,Storm和HBase做在线数据分析。其中HBase是按业务划分,底层构建HBase门禁系统。携程还构建了一套Mobile监控系统和UBT系统,用来跟踪用户行为和用户流量,并形成直观的可视化图像。  

BDTC PPT集萃(二):BAT、搜狐、新浪等互联网企业的大数据实践 腾讯数据平台部精准推荐中心深度学习方向负责人邹永强:Mariana,腾讯深度学习平台的进展和应用

(PPT下载) ——2014年第八届BDTC

基于深度学习存在的挑战,他们构建了腾讯深度学习平台Mariana,它的目标首先是通过并行加速计算;第二通过模型拆分支持大的模型;第三构建通用的框架简化代码的编写加速实验。对Mariana提出三大框架,第一个MarianaDNN,这是深度神经网络GPU运行的框架;第二个是MarianaCNN;第三个MarianaCluster,它们主要应用就是语音识别、图像识别和广告推荐。

奇虎360高级软件工程师肖康:Storm在实时网络攻击检测和分析的应用与改进

PPT下载   ——2013年第七届BDTC

肖康从业务需求、解决方案、问题与改进三个方面介绍了对访问360的服务进行实时统计和攻击检测的Storm平台。使用storm主要是从实时、扩展、容错和灵活四方面考虑,能够有效的提高时效性(10秒内可以检测到异常访问)、吞吐(单机群一个topology每个bolt10个并发,处理10Gb/s)、对业务影响(流量走光纤旁路给storm处理,对业务逻辑没有影响,不需要做任何修改),但是storm在稳定性、可用性和易用性方面仍存在着一些问题。肖康列举了其中的8个问题,并相应的给出了其改进方法,并提出了公司的未来工作。

腾讯精准推荐中心广告推荐负责人薛伟:腾讯广点通——大数据之上的实时精准推荐

PPT下载 ——2013年第七届BDTC

广点通是基于腾讯大社交平台的效果广告营销产品,在腾讯大社交平台海量用户积累的基础上,运用大数据技术,进行以人为核心的数据挖掘,实现精准的广告推荐。腾讯精准推荐平台是广点通背后的支撑系统之一,具有数据海量、系统实时和算法精准的特点。薛伟从数据、算法、系统等几个方面对广点通进行了介绍。广点通从推荐的视角看数据,形成用户、物品和推荐位之间的交叉效应;推荐本质上是一种个性化排序,针对不同的推荐场景,采用不同的数据和不同的算法策略,其中算法包括规则算法、基于内容的算法、协同过滤算法、图算法和分类算法等;关于系统方面,采用了腾讯分布式数据仓库和腾讯实时计算平台,借助实时系统助力精准推荐。

秒针技术经理刘诚忠:Running Cloudera Impala on PostgreSQL

PPT下载 )——2013 年第七届BDTC

刘诚忠解释了秒针关注大数据的原因,及其对大数据的探索。他介绍说,当初选择Cloudera Impala作为项目Camaro开发的基础时,主要考虑到了Cloudera Impala具备以下几个优势:较好的代码范、模块清晰、容易定制、比Hadoop的速度更快、分布式的执行树等。接着,他从前端、后端等方面对Camaro进行了介绍,并给出了Camaro性能、索引、多用户查询等方面的数据。最后,他为大家带来了Camaro的未来功能展望,如Yarn集成、UDF等,值得期待。

小米软件开发工程师冯宏华:HBase在小米的应用与扩展

(PPT下载) ——2013 年第七届BDTC

冯宏华主要介绍了HBase在小米的应用现状、小米对HBase已做的改进和扩展以及进行中/计划中的改进与扩展。HBase目前的集群规模为15个HBase集群,包括9个在线集群、2个离线处理集群和4个测试集群,服务于小米内部的十多个不同业务,具有几百台机器,每个数据节点为24TB。主要应用场景为小米云服务、米聊消息全存储、小米推送服务、MIUI离线分析和多看离线分析;小米对HBase已做的改进包括Delete的语义校正、可控粒度跨机房备份、写吞吐性能优化等多方面;计划的改进与扩展包括Compact优化、Failover优化、Master重构、多租户等方面。

BDTC PPT集萃(二):BAT、搜狐、新浪等互联网企业的大数据实践 华为Hadoop Committer Maheshwara Rao G:HDFS NameNode高可用性研究

(PPT下载)——2012年第六届BDTC

华为电信与核心网产品线 BigData团队的架构师Uma Maheshwara Rao G,负责HDFS项目整体技术开发。对电信领域有深刻理解,从2010年起从事HDFS开发,是HDFS的核心设计人员。2011年,Uma Maheshwara Rao G所在的团队对Hadoop 0.20.1基于备份实施了HA。其中包括Namenode(BNN)和ZooKeeper;智能端可以主动连接NN(NNs);BNN的Streaming edits;连接NN和BNN发送分组报告;定期检查BNN;实现双机热备和自动转换等。但是,BNN并没有彻底达到既定目标。尤其是从NN1到NN2备份节点之间如何积极有效解决等问题一直困扰着他们。为此,Uma Maheshwara Rao G考虑了采用更多方案来彻底解决这些问题。

BDTC PPT集萃(二):BAT、搜狐、新浪等互联网企业的大数据实践 网易资深工程师顾费勇:海量数据搬运工 Data Stream

(PPT下载)——2012年第六届BDTC

顾费勇探讨了 Datastream产生的原因,结构和特征,关键技术点分享,应用场景和未来展望。Data Stream不是为了生产数据,而是做数据的搬运工。作为一个数据传输平台,连通了数据源和终端用户的桥梁,不仅能管理多样化的数据来源,还能进行远程控制,保证输出的数据格式统一。大数据最主要的两个关键技术,一个是数据搜集,一个是数据整合与分析。顾费勇介绍网易在数据搜集方面做了比较完整的平台,但没有跟后端的数据分析组成一个完整的大数据平台,这也是他们在未来的扩展中需要提升的功能。 

淘宝核心系统存储系统研发专家杨志丰:OceanBase——淘宝结构化大数据解决之道

PPT下载 )——2012 年第六届BDTC

杨志丰表示淘宝每天大约有6000万用户登录以及20亿PV。淘宝数据库对于淘宝来说非常重要。几乎所有淘宝业务都依赖淘宝数据库。淘宝数据库具备数以千计的数据库服务器,需要同时应对单表几亿至几百亿条的记录以及每天几亿至几百亿次访问。为了应对大数据的冲击,淘宝将以前的Oracle、小型机、高端存储模式转变到现今的MySQL、OceanBase、Hbase、MongoDB等数据库,并使用普通PC服务器。杨志丰表示OceanBase可扩展数千亿条记录、数百TB数据、数十万QPS以及数万TPS。同时具备实时容错、自动故障恢复和99.999%高可用性。

BDTC PPT集萃(二):BAT、搜狐、新浪等互联网企业的大数据实践 百度基础架构部高级研发工程师刘景龙:HDFC的透明压缩存储和压缩传输

(PPT下载)——2011年第五届BDTC

为节省更多的存储空间,避免压缩过程影响计算作业,并且使这一过程对用户透明,百度在 HDFS下使用了透明压缩存储和压缩传输的技术。在实现的过程中,需要解决控制资源使用、确定冷数据以及处理特殊操作等关键问题;为了规避风险,尝试解压规避压缩算法bug、进行小流量上线避免透明压缩bug导致数据丢失、使用黑白名单规避风险等。在未来的规划中,要对开源、协处理器应用和透明压缩传输等进行有效的改进。

2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所与CSDN共同协办的2015中国大数据技术大会(Big Data Technology Conference 2015,BDTC 2015)将在北京新云南皇冠假日酒店隆重举办。第9届中国大数据技术大会历时3天,共包含大数据大赛,大数据生态系统、大数据基础设施、大数据政策法规和标准化、数据库技术与实践、大数据与人工智能、大数据与推荐系统、大数据安全等技术论坛,金融业与大数据、工业制造业与大数据、交通旅游与大数据、互联网大数据等行业应用论坛。预计数千名大数据行业精英、技术专家及意见领袖将齐聚北京,分享最新技术与实践的洞察与经验,共商大数据时代发展之计! 更多优惠,速来注册! (责编/仲浩)

正文到此结束
Loading...