简单的爬虫,爬取博客园文章标题
2018-06-24 00:00:46来源:未知 阅读 ()
花了几个小时写了一个小程序,没什么技术含量,第一次写博客。本人是个菜鸟,想记录一下自己的学习。
运行效果如图:
string url = "https://www.cnblogs.com/"; int pagNum = 10; string html = ""; //string pater = "(<a class=\"titlelnk\" href=\"[\\s\\S]*\" target =\"_blank\">)([\\s\\S]*)(</a>)"; string pater = "<a class=\"titlelnk\" href=\"(.*?)\" target=\"_blank\">(.*?)</a>"; Regex regex = new Regex(pater); int num = 0; for (int i = 1; i < pagNum; i++) { string url2 = url + "#p" + i; try { WebRequest request = WebRequest.Create(url2); Stream stream = request.GetResponse().GetResponseStream(); using (StreamReader reader = new StreamReader(stream, Encoding.UTF8)) { html = reader.ReadToEnd(); } } catch (Exception ex) { Console.WriteLine(ex.ToString()); Console.ReadKey(); } if (!string.IsNullOrEmpty(html)) { // Match match = Regex.Match(html, pater); foreach (Match ma in regex.Matches(html)) { Match math = Regex.Match(ma.Value,pater); string title = math.Groups[2].Value; num++; Console.WriteLine("第" + num + "个标题:\b" +title); File.AppendAllText(@"d:\1.txt",title+ "\r\n"); } } } Console.ReadKey();
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
下一篇:Quartz.NET实现作业调度
- [01]HTML基础之简单介绍 2020-06-01
- HTML开发实例-简单相亲网站开发(主体为table) 2020-05-27
- Bootstrap4网格系统+文字排版+颜色 简单练习 2020-04-14
- 简单理解vertical-align属性和基线 2020-04-03
- 网页简单布局之结构与表现原则案例 2020-03-19
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash