jsoup 1.11.3 发布,Java 的 HTML 解析器 - 开源中国社区
Float_left Icon_close
jsoup 1.11.3 发布,Java 的 HTML 解析器
周其 2018年04月16日

jsoup 1.11.3 发布,Java 的 HTML 解析器

周其 周其 发布于2018年04月16日 收藏 30 评论 13

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。

jsoup的主要功能如下:

  1. 从一个URL,文件或字符串中解析HTML;

  2. 使用DOM或CSS选择器来查找、取出数据;

  3. 可操作HTML元素、属性、文本;

jsoup是基于MIT协议发布的,可放心使用于商业项目。

此次更新内容:

改进

  • CDATA sections are now treated as whitespace preserving (regardless of the containing element), and are round-tripped into output HTML.

  • Added support for Deflate encoding.

  • When parsing <pre> tags, skip the first newline if present.

  • Support nested quotes for attribute selection queries.

  • Character references from Windows-1252 that are not valid Unicode are mapped to the appropriate Unicode replacement.

  • Accept a custom SSL socket factory in Jsoup.ConnectionNote that Connection.validateTLSCertificates() will be removed in the next release; Connection.sslSocketFactory(SSLSocketFactory sslSocketFactory)provides a path to implement a workaround if you need to keep using a similar approach.

Bug 修复

  • Bugfix: A Mark has been invalidated exception was thrown when parsing some URLs on Android <= 6.

  • Bugfix: The Element.text() for <div>One</div>Two was OneTwo, not One Two.

  • Bugfix: boolean attributes with empty string values were not collapsing in HTML output.

  • Bugfix: when using the XML Parser set to lowercase normalize tags, uppercase closing tags were not correctly handled.

  • Bugfix: when parsing from a URL, an end tag could be read incorrectly if it started on a buffer boundary.

完整内容请查看发布主页下载地址

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:jsoup 1.11.3 发布,Java 的 HTML 解析器
分享
评论(13)
精彩评论
3
非常非常灵活的工具包,可是也有不足之处,1 加载整个dom耗时较长,2 有些网站进入首页会使用js脚本异步请求获取数据、这时候jsoup不支持。

引用来自“i胡志强”的评论

非常非常灵活的工具包,可是也有不足之处,1 加载整个dom耗时较长,2 有些网站进入首页会使用js脚本异步请求获取数据、这时候jsoup不支持。
他只是一个静态的工具包, 不具备脚本执行能力..
1
更新不少内容哦
最新评论
0
抓取一些常规的网站还是挺好用的,就是如果对方网站是异步加载的,就不行了;离Python的爬虫还是有一段距离;
0
解析html没啥用问题 用它来修改html问题不少……
0
异步ajax数据能获取?

引用来自“i胡志强”的评论

非常非常灵活的工具包,可是也有不足之处,1 加载整个dom耗时较长,2 有些网站进入首页会使用js脚本异步请求获取数据、这时候jsoup不支持。
他只是一个静态的工具包, 不具备脚本执行能力..
3
非常非常灵活的工具包,可是也有不足之处,1 加载整个dom耗时较长,2 有些网站进入首页会使用js脚本异步请求获取数据、这时候jsoup不支持。
0
抓运营商数据时用过~
0
跟火车头抓取器说拜拜:laughing:
0
好东西,网站抓取神器
0
这个jsoup真的不错,非常好,推荐推荐~
0
call
0

引用来自“红薯”的评论

更新不少内容哦
打破0回复
0
jodd也有类似功能
1
更新不少内容哦
顶部