Jsoup学习笔记 Jsoup是Java世界的一款HTML解析工具,同时支持用CSS Selector方式选择DOM元素,也可防止XSS攻击等。 学习Jsoup是为了更好的开发我的另一个爬虫框架webmagic,为了学的比较详细,就强制自己用很规范的方式写出这部分文章。 代码部分来自https://github.com/jhy/jsoup,添加了一些中文注释以及示例代码。 提纲 概述 DOM相关对象 Document的输出 语法分析parser 语法分析与状态机基础 词法分析 语法分析 CSS Selector 防御XSS攻击 协议: 相关代码遵循MIT协议。 文档遵循CC-BYNC协议。