基于java的Jsoup爬取小说(暂时只能爬取一本)
2018-08-03 07:29:56来源:博客园 阅读 ()
因为爬取起点目录页找不到各个章节的url,因此只能一章一章的往下爬
分析下起点网页html
首先导入相关jar包 (我用的是gradle)
上代码
url="https://read.qidian.com/chapter/6xbxCkvMZqw1/OCcwrQf_B4Qex0RJOkJclQ2"; //伪装浏览器 Document document = Jsoup.connect(url).userAgent("Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36").timeout(500000).get(); //获得书名 String bookName = document.getElementsByClass("book-cover-wrap").select("h1").text(); int i = 1; //一直循环,直到找不到下一章url while (true) { //获取章节名 String name = document.select("h3[class = j_chapterName]").text(); //获取下一章的element Element element = document.getElementById("j_chapterNext"); String nexturl; //获取内容 String fiction = document.select("div[class = read-content j_readContent]").select("p").toString(); //正则替换<p></p> String s = fiction.replaceAll("<\\/?p>", ""); if (element == null) { break; } nexturl = "https:" + element.attr("href"); //is表示免费章节数(vip章节需要登录付费)loginUrl 表示vip章节的url if(i==is){ i++; nexturl = loginUrl; } if (i >= is) { try { //获取vip章节,并带头文件,可能报400,500 document = Jsoup.connect(nexturl).header("", "").header("","").header("", "").header("", "").timeout(60000).get(); } catch (Exception e) { System.out.println("ss"+e.getMessage()); document = Jsoup.connect(nexturl).header("", "").header("", "").header("", "").header("", "").userAgent("").timeout(60000).get(); } } else { i++; try { document = Jsoup.connect(nexturl).timeout(60000).get(); } catch (Exception e) { System.out.println("----------------------"); } } }
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
下一篇:Kafka集群搭建
- 国外程序员整理的Java资源大全(全部是干货) 2020-06-12
- 2020年深圳中国平安各部门Java中级面试真题合集(附答案) 2020-06-11
- 2020年java就业前景 2020-06-11
- 04.Java基础语法 2020-06-11
- Java--反射(框架设计的灵魂)案例 2020-06-11
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash