转载

发表于 2014年12月14日
浏览 (978)
评论 (0)

解析和遍历一个html文档_jsoup教程

如何解析一个HTML文档： String html = "<html><head><title>First parse</title></head>" + "<body><p>Parsed HTML into a doc.</p></body></html>";Document doc = Jsoup.parse(html); (更详细内容可查看解析一个HTML字符串.) 其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果，无论HTML的格式是否完整。比如它可以处理：

没有关闭的标签 (比如： <p>Lorem <p>Ipsum parses to <p>Lorem</p> <p>Ipsum</p>)
隐式标签 (比如. 它可以自动将 <td>Table data</td>包装成<table><tr><td>?)
创建可靠的文档结构（html标签包含head 和 body，在head只出现恰当的元素）

一个文档的对象模型

文档由多个Elements和TextNodes组成 (以及其它辅助nodes：详细可查看：nodes package tree).
其继承结构如下：Document继承Element继承Node. TextNode继承 Node.
一个Element包含一个子节点集合，并拥有一个父Element。他们还提供了一个唯一的子元素过滤列表。

参见

数据抽取：DOM遍历
数据抽取：Selector syntax

正文到此结束

所属分类： jsoup

本文标签： 遍历解析 jsoup
版权声明： 本文为互联网转载文章，出处已在文章中说明(部分除外)。如果侵权，请联系本站长删除，谢谢。
本文海报： 生成海报一生成海报二

热门推荐

openfire数据库安装指南

浏览(14,784) 评论(0)
Caffe 深度学习框架上手教程

浏览(11,120) 评论(0)
ReactiveCocoa入门教程：第一部分

浏览(11,934) 评论(0)
开源HIDS-OSSEC使用实例:监测CC攻击

浏览(11,835) 评论(0)
Decorators in ES7

浏览(16,453) 评论(4)
用Electron（Atom编辑器的兄弟项目）开发桌面应用

浏览(29,423) 评论(0)
Windows下JetBrains CLion中文输出乱码的解决方法

浏览(12,874) 评论(1)
同步-@synchronized, NSLock, pthread, OSSpinLock性能比较

浏览(11,799) 评论(0)
【开班了】JAVA培训班正式招生

浏览(7,925) 评论(12)
Seaweedfs之Volume读请求重定向

浏览(26,094) 评论(3)

相关文章

阿里云首购8折

Loading...

其他链接

关于本站

本站定位：个人技术类博客

本站作用：写博客、记日志、闲聊扯淡鼓捣技术。

问题交流

[HBLOG]公众号

HBLOG

HBLOG