转载

Learning Scrapy笔记（六）- Scrapy处理JSON API和AJAX页面

摘要：介绍了使用Scrapy处理JSON API和AJAX页面的方法

有时候，你会发现你要爬取的页面并不存在HTML源码，譬如，在浏览器打开 http://localhost:9312/static/ ，然后右击空白处，选择“查看网页源代码”，如下所示：

就会发现一片空白

Learning Scrapy笔记（六）- Scrapy处理JSON API和AJAX页面

留意到红线处指定了一个名为api.json的文件，于是打开浏览器的调试器中的Network面板，找到名为api.json的标签

Learning Scrapy笔记（六）- Scrapy处理JSON API和AJAX页面

在上图的红色框里就找到了原网页中的内容，这是一个简单的JSON API，有些复杂的API会要求你先登录，发送POST请求，或者返回一些更加有趣的数据结构。Python提供了一个用于解析JSON的库，可以通过语句json.loads(response.body)将JSON数据转变成Python对象

api.py文件的源代码地址：

https://github.com/Kylinlin/scrapybook/blob/master/ch05%2Fproperties%2Fproperties%2Fspiders%2Fapi.py

复制manual.py文件，重命名为api.py，做以下改动：

将spider名修改为api
将start_urls修改为JSON API的URL，如下

   start_urls = ( 'http://web:9312/properties/api.json', )

如果在获取这个json的api之前，需要登录，就使用start_request()函数（参考《Learning Scrapy笔记（五）- Scrapy登录网站》）

修改parse函数

   def parse(self, response):     base_url = "http://web:9312/properties/"     js = json.loads(response.body)   for item in js:         id = item["id"]         url = base_url + "property_%06d.html" % id # 构建一个每个条目的完整url         yield Request(url, callback=self.parse_item)

上面的js变量是一个列表，每个元素都代表了一个条目，可以使用scrapy shell工具来验证：

   scrapy shell http://web:9312/properties/api.json

Learning Scrapy笔记（六）- Scrapy处理JSON API和AJAX页面

运行该spider：scrapy crawl api

Learning Scrapy笔记（六）- Scrapy处理JSON API和AJAX页面

可以看到总共发送了31个request，获取了30个item

再观察上图中使用scrapy shell工具检查js变量的图，其实除了id字段外，还可以获取title字段，所以可以在parse函数中同时获取title字段，并将该字段的值传送到parse_item函数中填充到item里（省去了在parse_item函数中使用xpath来提取title的步骤），修改parse函数如下：

   title = item["title"] yield Request(url, meta={"title": title},callback=self.parse_item) #meta变量是一个字典，用于向回调函数传递数据

在parse_item函数中，可以在response中提取这个字段

   l.add_value('title', response.meta['title'],         MapCompose(unicode.strip, unicode.title))

原文 http://www.cnblogs.com/kylinlin/p/5401359.html

正文到此结束

所属分类：编程技术

本文标签： ip UI 解析 python shell map HTML http 源码网站代码 src web tar GitHub Ajax API value js IDE json https 数据 URLs git 调试 parse
版权声明： 本文为互联网转载文章，出处已在文章中说明(部分除外)。如果侵权，请联系本站长删除，谢谢。
本文海报： 生成海报一生成海报二

其他链接

关于本站

本站定位：个人技术类博客

本站作用：写博客、记日志、闲聊扯淡鼓捣技术。

问题交流

Learning Scrapy笔记（六）- Scrapy处理JSON API和AJAX页面

热门推荐

相关文章

说给你听

本文目录

随机标签

书籍教程

近期评论

网站信息

其他链接

关于本站

问题交流