java之接口文档规范
2018-07-25 13:06:03来源:博客园 阅读 ()
一、xxxxxx获取指定任务爬取的所有url的接口
接口名称:xxxxxx获取指定任务爬取的所有url的接口
访问链接:
http://IP:PORT/crwalTask/findUrlExceptionById?ctId=ctIdVal&time=timeVal&limit=limitVal
传入参数类型:String,int
参数内容:
返回类型:JSONArray
返回内容:
调用方法Demo
1 public static void main(String[] args) throws Exception { 2 //爬虫访问接口地址 3 String req_url = "http://192.168.1.105:8080/crwalTask/findUrlExceptionById?ctId=ctIdVal&time=timeVal&limit=limitVal"; 4 JSONArray jsonArray = httpRequest(req_url,"ba716af7-105c-481b-bf28-2e9231529947",SelectUtil.time,SelectUtil.number);//200 5 System.out.println(jsonArray); 6 } 7 8 public class SelectUtil { 9 public static final String time = "2018-03-05".replaceAll(" ", "=");//按时间筛选 格式"yyyy-mm-dd"或"yyyy-mm-dd HH:mm:ss" 10 public static final int number = 162;//查询限制数量 11 } 12 /** 13 * 获取指定任务爬取的所有url信息 14 * @param req_url 访问指定任务爬取的url的链接地址 15 * @param ctId 指定的任务Id 16 * @param time 查询时间 17 * @param limit 查询限制的条数 18 * @return 19 */ 20 public static JSONArray httpRequest(String req_url,String ctId,String time,int limit) { 21 req_url = req_url.replace("ctIdVal",ctId); 22 req_url = req_url.replace("timeVal",time); 23 req_url = req_url.replace("limitVal",String.valueOf(limit)); 24 StringBuffer buffer = new StringBuffer(); 25 JSONArray jsonArray = null; 26 try { 27 URL url = new URL(req_url); 28 HttpURLConnection httpUrlConn = (HttpURLConnection) url.openConnection(); 29 30 httpUrlConn.setDoOutput(false); 31 httpUrlConn.setDoInput(true); 32 httpUrlConn.setUseCaches(false); 33 34 httpUrlConn.setRequestMethod("POST"); 35 httpUrlConn.connect(); 36 37 // 将返回的输入流转换成字符串 38 InputStream inputStream = httpUrlConn.getInputStream(); 39 InputStreamReader inputStreamReader = new InputStreamReader(inputStream, "utf-8"); 40 BufferedReader bufferedReader = new BufferedReader(inputStreamReader); 41 42 String str = null; 43 while ((str = bufferedReader.readLine()) != null) { 44 buffer.append(str); 45 } 46 bufferedReader.close(); 47 inputStreamReader.close(); 48 // 释放资源 49 inputStream.close(); 50 inputStream = null; 51 httpUrlConn.disconnect(); 52 if("".equals(buffer.toString())){ 53 String exception = "[\"exception\",\"查询的记录数超过240\"]"; 54 55 jsonArray = JSONArray.fromObject(exception); 56 }else{ 57 jsonArray = JSONArray.fromObject(buffer.toString()); 58 } 59 } catch (Exception e) { 60 System.out.println(e.getMessage()); 61 } 62 63 return jsonArray; 64 }
需要的Jar包:
commons-beanutils-1.9.3.jar
commons-collections-3.2.2.jar
commons-lang-2.6.jar
commons-logging-1.2.jar
ezmorph-1.0.6.jar
json-lib-2.4-jdk15.jar
Sql脚本
alter table urlpathmapper add exceptionInfo varchar(2048) comment 'URL运行错误信息'
alter table urlpathmapper add title varchar(256) comment '爬取标题'
alter table crawltaskmanage add checkFile varchar(8) comment '文件是否校验 0是 1否'
alter table crawltaskmanage add SimHashValue int(8) comment 'SimHash算法重复度比较值'
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
- 国外程序员整理的Java资源大全(全部是干货) 2020-06-12
- Spring系列.ApplicationContext接口 2020-06-11
- 2020年深圳中国平安各部门Java中级面试真题合集(附答案) 2020-06-11
- 2020年java就业前景 2020-06-11
- 04.Java基础语法 2020-06-11
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash