转载

发表于 2015年11月10日
浏览 (729)
评论 (0)

【Git 项目推荐】使用 scrapy 爬取网络上的信息

douban_scrapy

感谢豆瓣小组提供数据来源

环境准备

Scrapy
MongoDB

快速开始

#: 安装必要 python 库  sudo pip install scrapy  sudo pip install pymongo  #: 下载图片到本地,并且保存相关信息到MongoDB中.  scrapy crawl haixiuzu  #: 生成本地相册需要的json data.  python check.py  #: 建立本地http server  python -m SimpleHTTPServer 80  #: 打开浏览器输入http://localhost/gallary

已实现的功能

爬取大家的发贴信息(标题、标题URL、作者、作者URL等)，以及下载妹子图片到本地
爬取用户地理位置信息,方便联(yue)系(pao)
增加RandomUserAgent功能,防止被BAN
增加延时抓取功能，防止被BAN
由于下载妹子图片较多，故采用hash方法分散到多个目录进行管理，提高打开文件夹速度
下载妹子图片的同时生成缩略图，为计划做的【妹子图库网站】做准备

计划实现的功能

本地相册功能,可以在浏览器内预览图,通过快捷键j,k,space等对图片进行翻页,加红心,删除等功能
本地相册功能打算借鉴(fgallery)[ http://www.thregr.org/~wavexx/software/fgallery/demo/ ]
如果图片对应的topic已被管理员删除，则高亮显示(一般被删的都是尺度较大的图片)

更多

提交建议，需求，Bug报告
Fork Me

【Git 项目推荐】使用 scrapy 爬取网络上的信息

正文到此结束

所属分类：编程技术

本文标签： js 需求 ACE https 管理删除 git 数据 http ip UI src db 安装缩略图 aix 标题 json 目录网站 DOM 下载 MongoDB python
版权声明： 本文为互联网转载文章，出处已在文章中说明(部分除外)。如果侵权，请联系本站长删除，谢谢。
本文海报： 生成海报一生成海报二

热门推荐

openfire数据库安装指南

浏览(14,994) 评论(0)
Caffe 深度学习框架上手教程

浏览(11,259) 评论(0)
ReactiveCocoa入门教程：第一部分

浏览(12,060) 评论(0)
开源HIDS-OSSEC使用实例:监测CC攻击

浏览(11,963) 评论(0)
Decorators in ES7

浏览(16,582) 评论(4)
用Electron（Atom编辑器的兄弟项目）开发桌面应用

浏览(29,551) 评论(0)
Windows下JetBrains CLion中文输出乱码的解决方法

浏览(12,997) 评论(1)
同步-@synchronized, NSLock, pthread, OSSpinLock性能比较

浏览(11,912) 评论(0)
【开班了】JAVA培训班正式招生

浏览(8,055) 评论(12)
Seaweedfs之Volume读请求重定向

浏览(26,209) 评论(3)

相关文章

阿里云首购8折

Loading...

其他链接

关于本站

本站定位：个人技术类博客

本站作用：写博客、记日志、闲聊扯淡鼓捣技术。

问题交流

[HBLOG]公众号

HBLOG

HBLOG