SeimiCrawler v1.3.4 发布,Java 爬虫框架
无极小子 2017年08月10日

SeimiCrawler v1.3.4 发布,Java 爬虫框架

无极小子 无极小子 发布于2017年08月10日 收藏 32

开源中国全球专享福利,云栖大会购票大返现!>>>  

SeimiCrawler v1.3.4 已发布,变更记录

v1.3.4

  • 修复分布式队列DefaultRedisQueue中json反序列化useSeimiAgent永远为false的bug @Dreamerdream

v1.3.3

  • 修复异常次数超过最大重试次数后,无法进入异常处理器

  • 增加当异常请求被提交给异常处理器超过三次后,再不对其进行处理

v1.3.2

  • bug fix

v1.3.1

  • 中文参数在框架层强制统一进行utf8编码的urlEncode,最大程度减少乱码请求

  • Request请求在去重处理时,将区分范围扩大到所设定的请求参数

简介

SeimiCrawler是一个敏捷的,独立部署的,支持分布式的Java爬虫框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发效率。

在SeimiCrawler的世界里,绝大多数人只需关心去写抓取的业务逻辑就够了,其余的Seimi帮你搞定。设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发,同时融合了Java语言本身特点与Spring的特性,并希望在国内更方便且普遍的使用更有效率的XPath解析HTML,所以SeimiCrawler默认的HTML解析器是JsoupXpath(独立扩展项目,非jsoup自带),默认解析提取HTML数据工作均使用XPath来完成(当然,数据处理亦可以自行选择其他解析器)。并结合SeimiAgent彻底完美解决复杂动态页面渲染抓取问题。

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:SeimiCrawler v1.3.4 发布,Java 爬虫框架
分享
评论(1)
最新评论
0
哦哦哦
顶部