-
Notifications
You must be signed in to change notification settings - Fork 0
gu0719/jsoup_Demo
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
1.创建项目,添加Jsoup、Junit的Maven依赖,并测试----Maven依赖添加正确可以使用 2.分析所需的数据,在entity包下创建一个实体类Book,使用source添加get()、set()方法、toString()方法(用于测试时使用)。 3.在douBan包下创建Util,创建一个getPage(String url)的方法 4.建立与目标页面的连接,防止被反扒拦截,伪装成浏览器,获取网页的title并输出,运行以确定连接成功 5.先获取一页中的图书信息 5.1 查看源码发现所有的书的信息被一个class=info的div标签包裹,使用doc.getElementsByClass()方法获取所有的class=info的div标签 5.2 判断页面中获取的div是否为空,若为空则表示书本已经没有了 5.3根据孩子标签来分别获取所需要的数据,通过观察可以发现第一个孩子标签里的文本是书名; 第二个孩子标签中可以通过String的split方法、subString方法、trim方法等来获取到作者 出版社 出版日期 价格等数据 第三个孩子标签中可以获取评分和人数。在获取的过程中,发现有两本书有特例,是只有一个书名和评分低于10分的 因此做了相应的处理,可能把数据处理的有失偏颇还请见谅。 5.4在处理方法之前创建一个Book对象,用于设置其属性,并定义全局变量List<Book>用于存放所有的Book对象 5.5 回到测试类,创建测试方法并添加Junit注解进行测试。 5.6 由于需要筛选,因此调整代码结构,先获取评论人数,如果超过1000放入到集合中 6.创建一个BookHandler类创建List<Book> getPages方法用于获取所有的类,并返回一个List集合用于后续的处理。 7.将获取到的List集合保存在数据库中,使用JDBC DBCP相应的maven依赖 8.排序后读取所有数据库中的信息,并保存到一个List集合中用于下一步写入excel 9.导入poi依赖,在excel包下创建一个OpreateExcel的类用于写入 顺序 创建excel表格对象---创建表---创建行---创建格子---写入数据---输出到文件 运行总时长:53秒
About
No description, website, or topics provided.
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published