java使用htmlunit工具抓取js中加载的数据
2019-08-26 06:37:04来源:博客园 阅读 ()
java使用htmlunit工具抓取js中加载的数据
htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。这个没有界面的浏览器,运行速度也是非常迅速的。采用的是Rhinojs引擎。模拟js运行。
说白了就是一个浏览器,这个浏览器是用Java写的无界面的浏览器,正因为其没有界面,因此执行的速度还是可以滴,HtmlUnit提供了一系列的API,这些API可以干的功能比较多,如表单的填充,表单的提交,模仿点击链接,由于内置了Rhinojs引擎,因此可以执行Javascript。
网页获取和解析速度较快,性能较好,推荐用于需要解析网页脚本的应用场景。
在使用此工具前需要导入htmlunit需要的jar包:
代码:
public static String url="http://www.XXX.cn/XXX";//抓取数据的地址 public static void main(String[] args) throws IOException, SAXException { WebClient wc = new WebClient(BrowserVersion.FIREFOX_52); wc.getOptions().setJavaScriptEnabled(true); //启用JS解释器,默认为true wc.setJavaScriptTimeout(100000);//设置JS执行的超时时间 wc.getOptions().setCssEnabled(false); //禁用css支持 wc.getOptions().setThrowExceptionOnScriptError(false); //js运行错误时,是否抛出异常 wc.getOptions().setTimeout(10000); //设置连接超时时间 ,这里是10S。如果为0,则无限期等待 wc.setAjaxController(new NicelyResynchronizingAjaxController());//设置支持AJAX wc.setWebConnection(new WebConnectionWrapper(wc) { public WebResponse getResponse(WebRequest request) throws IOException { WebResponse response = super.getResponse(request); String data= response.getContentAsString(); if (data.contains("{\"js中的数据标识\"")){//判断抓到的js数据是否是包含抓取的字段 System.out.println(data); writeFile(data);//将js中获取的数据写入指定路径的txt文件中 } return response; } } ); HtmlPage page = wc.getPage(url); System.out.println("page:" + page); try { Thread.sleep(1000);//设置 } catch (InterruptedException e) { e.printStackTrace(); } //关闭webclient wc.close(); } /** * 写入TXT文件 */ public static void writeFile(String data) { try { File writeName = new File("data.txt"); // 相对路径,如果没有则要建立一个新的output.txt文件 writeName.createNewFile(); // 创建新文件,有同名的文件的话直接覆盖 try{
FileWriter writer = new FileWriter(writeName);
BufferedWriter out = new BufferedWriter(writer); out.write(data); out.flush(); // 把缓存区内容压入文件 } } catch (IOException e) { e.printStackTrace(); } }
原文链接:https://www.cnblogs.com/qiantao/p/11401608.html
如有疑问请与原作者联系
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
- 国外程序员整理的Java资源大全(全部是干货) 2020-06-12
- 2020年深圳中国平安各部门Java中级面试真题合集(附答案) 2020-06-11
- 2020年java就业前景 2020-06-11
- 04.Java基础语法 2020-06-11
- Java--反射(框架设计的灵魂)案例 2020-06-11
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash