数据采集类
2018-06-18 03:19:31来源:未知 阅读 ()
爬虫,又称蜘蛛,是从别的网站抓取资源的一种方法,C#.NET使用爬虫的方法如下:
protected string GetPageHtml(string url) { string pageinfo; try { WebRequest myreq = WebRequest.Create(url); WebResponse myrep = myreq.GetResponse(); StreamReader reader = new StreamReader(myrep.GetResponseStream(), Encoding.GetEncoding("gb2312")); pageinfo = reader.ReadToEnd(); } catch { pageinfo = ""; } return pageinfo; }
按上述方法就可以在程序中获取某URL的页面源文件。
但是有些网站屏蔽了爬虫,那就需要模拟浏览器获取的方法来进行,具体代码如下:
protected string GetPageHtml(string url) { string pageinfo; try { HttpWebRequest myReq = (HttpWebRequest)HttpWebRequest.Create(url); myReq.Accept = "image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/x-shockwave-flash, application/vnd.ms-excel, application/vnd.ms-powerpoint, application/msword, */*"; myReq.UserAgent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)"; HttpWebResponse myRep = (HttpWebResponse)myReq.GetResponse(); Stream myStream = myRep.GetResponseStream(); StreamReader sr = new StreamReader(myStream, Encoding.Default); pageinfo = sr.ReadToEnd().ToString(); } catch { pageinfo = ""; } return pageinfo; }
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
上一篇:递归实现阶乘
下一篇:asp.net 创建文字特效
- 7-44 黑洞数(20 分) 2018-12-04
- 引用 2018-09-18
- C语言Linix服务器网络爬虫项目(一)项目初衷和网络爬虫概述 2018-06-18
- 网络爬虫大白话解析 2018-06-18
- 网络爬虫+HtmlAgilityPack+windows服务从博客园爬取20万博文 2018-06-18
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash