转载

Python Makes Me a Lazy Gua

曾经由于 王垠 的影响,知道了简书。从那以后,在我的穿戴设备上统一卸载了知乎,安装了简书。因为感觉简书的清新和简洁更合我胃口。当我开始学习iOS开发的时候,从Google上获取信息经常可以搜索到国人在简书上的博文,感觉简书已经不再单是文艺清新的体验,在互联网开发者的大军下又成为了一个知识园地。现在的简书其内涵价值远高于初。

之后经朋友邀请,加入了 Bestswifer 的群,然后又结识了许许多多的同龄iOS开发大牛: Jim 、 LastDays 、 Halfrost 等,他们水平都非常高,现在也就职于各一线互联网企业,博主十分钦佩。他们每个人在简书上都成立个人专栏,进行知识探求。在简书上获取知识成为一个iOS Developer的日常。

我希望我的博文平台也同步迁移到简书,但是同时更新简书和个人站点是一件很繁琐的事情。试想,在简书上编辑好的文字,然后复制粘贴→修改标记→核对标题时间→创建md文件……一趟下来,最少度过了20分钟。为了处理这些零碎的时间,打算编写个 Jianshu Markdown 转换为 krandom Markdown 的爬虫来处理效率问题。

HTML Tags <a> <h1> ... krandom Markdown [Text](url) # text ... inner HTML

由于尚未 Python 开发经验,搜索了大量信息后,决定使用 BeautifulSoup 第三方库来实现 HTMLDom 树的解析,在通过 正则表达式 将有用的标签信息搜取出来,针对于我的日常需要,只转换主要的几个标签即可。我在 Github 上已经写出了爬虫的demo,现在已经可以支持 <h><a><p><img><pre> 等常用标签的转换,在后期的编写时,对于文章信息做一个解析即可完成。

下面是目前的一个成果截图。如果你也有相同的需求,或者对这个项目有兴趣,可以一起贡献代码。然后再根据自己的 markdown 引擎解析器,制作自己的站点博文同步爬虫。

原文  https://desgard.com/2016/06/20/JianshuMarkdownParser/
正文到此结束
Loading...