转载

发表于 2015年03月24日
浏览 (1,701)
评论 (0)

众推平台架构——分布式爬虫

分布式爬虫架构

经过新一轮的投票，项目的范围已经基本确定。

众推平台架构——分布式爬虫

大家决定全力以付，集中攻克“分布式爬虫”。

分布式爬虫架构1

使用队列，即生产者，消费都模式。

众推平台架构——分布式爬虫

由于生产者将规则生成到队列，然后由爬虫集群（消费者）到队列中取规则，然后按优先级等规则进行爬取。

分布式爬虫架构2

类似于webmagic，webmagic的是一个无须配置、便于二次开发的爬虫框架，它提供简单灵活的API，只需少量代码即可实现一个爬虫。webmagic采用完全模块化的设计，功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化)，支持多线程抓取，分布式抓取，并支持自动重试、自定义UA/cookie等功能。

众推平台架构——分布式爬虫

分布式爬虫架构3

分布式爬虫架构3，参考的Cola是一个分布式的爬虫框架，用户只需编写几个特定的函数，而无需关注分布式运行的细节。任务会自动分配到多台机器上，整个过程对用户是透明的。

基于Cola实现的爬虫位于contrib/目录下。目前实现了四个爬虫：

wiki：维基百科。
weibo：新浪微博爬虫。从初始用户出发，然后是其关注和粉丝，依次类推，抓取指定个数的新浪微博用户的微博、个人信息、关注和粉丝。其中，用户微博只获取了内容、赞的个数、转发和评论的个数等等，而没有具体去获取此微博被转发和评论的内容。
generic(unstable)：通用爬虫，只需配置，而无需修改代码。目前Cola实现了一个抽取器（cola/core /extractor），能够从网页正文中自动抽取主要内容，即去除类似边栏和底脚等内容。但是，此抽取器目前准确度还不够，效率也不够高，所以需要谨慎使用。
weibosearch(unstable)：新浪微博搜索的爬虫。这个爬虫使用 cola.core.opener.SpynnerOpener，基于spynner实现了一个Opener能够执行JavaScript和Ajax代码。目前这个爬虫存在的问题是：新浪微博可能会将其识别成机器人，因此有可能会让输入验证码。

wiki和weibo之前有所提及。主要说明generic和weibosearch。

众推平台架构——分布式爬虫

分布式爬虫架构4

设计方式参考hadoop等分布式运算架构。

众推平台架构——分布式爬虫

控制结点类似于hadoop的namenode，工作结点类似于datanode。存储可以根据代理适配到DB或者Mongo集群等。

有想参与的可以一起进来讨论

群号 194338168想深度参与的加，不想参与的就别往里进了，现在需要的主要是开发和文档两类人。群会定期往出清人！（项目会开源出来）

正文到此结束

所属分类：编程技术

本文标签： node 配置微博 tab Datanode 开源 Hadoop Namenode 开发 web 集群 CTO java 线程代码目录多线程 ip API db UI Ajax
版权声明： 本文为互联网转载文章，出处已在文章中说明(部分除外)。如果侵权，请联系本站长删除，谢谢。
本文海报： 生成海报一生成海报二

热门推荐

openfire数据库安装指南

浏览(14,994) 评论(0)
Caffe 深度学习框架上手教程

浏览(11,259) 评论(0)
ReactiveCocoa入门教程：第一部分

浏览(12,060) 评论(0)
开源HIDS-OSSEC使用实例:监测CC攻击

浏览(11,963) 评论(0)
Decorators in ES7

浏览(16,582) 评论(4)
用Electron（Atom编辑器的兄弟项目）开发桌面应用

浏览(29,551) 评论(0)
Windows下JetBrains CLion中文输出乱码的解决方法

浏览(12,997) 评论(1)
同步-@synchronized, NSLock, pthread, OSSpinLock性能比较

浏览(11,912) 评论(0)
【开班了】JAVA培训班正式招生

浏览(8,055) 评论(12)
Seaweedfs之Volume读请求重定向

浏览(26,209) 评论(3)

相关文章

阿里云首购8折

Loading...

其他链接

关于本站

本站定位：个人技术类博客

本站作用：写博客、记日志、闲聊扯淡鼓捣技术。

问题交流

[HBLOG]公众号

HBLOG

HBLOG