就在今天, 雅虎 宣布 开源 了自家的网页 爬虫 工具 —— Anthelion 。
Anthelion 是 雅虎 用来爬取 HTML 中的语法结构数据的网络 爬虫 。然而对于 雅虎 来说,网络爬虫其实一直是处于非常核心的位置。其地位甚至高于雅虎的许多其他的核心应用,比如 Yahoo Mail, Yahoo Finance, Yahoo Messenger, Flickr, 和 Tumblr 等。 毫无疑问, Anthelion 的 开源 对雅虎在 web 搜索领域的竞争力提升意义重大。
去年在上海的一次会议中,雅虎就公布了 Anthelion 的很多细节,会议中提到,Anthelion最初致力于爬取嵌入HTML网页中的语义数据。例如: microdata 、microformats 和 RDFa 等。在这次会议上同时还提到了很多关于 Anthelion 爬虫实现的技术。
Anthelion 的代码现在以 Apache 开源 授权协议托管到 GitHub: https://github.com/yahoo/anthelion 。有兴趣的小伙伴可以下载哦!
http://venturebeat.com/2015/12/14/yahoo-open-sources-anthelion-web-crawler-for-parsing-structured-data-on-html-pages/