3秒钟看懂Baidu Spider3.0
2019-04-10 08:48:51来源: 百度站长平台 阅读 ()
Baidu Spider上一次升级还要追溯到2010年。
那个时候,中国互联网资源急剧扩张,从百亿扩大到千亿规模,因而spider系统进行了重构,从单机互联转变为分布式计算系统。
但是有一个很大的缺点:延时严重!
而此次重构是把当前离线、全量计算为主的系统,改造成实时、增量计算的全实时调度系统,万亿规模的数据进行实时读写,可以收录90%的网页,速度提升80%!
一张图以蔽之:
一、链接发现方面
如今sipder每天发现的新链接在500亿左右的量级,而在百度站长平台提交链接是其中最为高效的,特此,工程师提醒站长不要过度提交链接,尤其是低质链接,这样才能达到更好更及时的收录效果。
二、链接抓取方面
策略上,开发了更强大的机器学习模型,来进行链接的质量预测,对库中所有的链接进行全局排序,对有价值链接的召回率提高95%!
架构上,计算性能的强劲提升,对每天新增的数百亿模块的链接,完成实时计算,延时不到1秒;开发了更强大的存储系统,面对万亿规模的数据做到实时读写。
三、时效性页面方面
中长尾站的福音!针对时效性资源,从原来的优先对新浪、网易等大新闻站进行抓取,扩大到覆盖全网的新闻、博客、论坛等站点进行快速抓取,大小站都能优待。
打破老的平稳抓取模型,采用按需抓取机制,对有时效性新资源,做到秒级抓取。
目前,每天收录的时效性资源规模,扩大到原来的3倍,达到近1亿量级!
四、死链方面
全新的死链识别模型,能识别各种协议死链、内容死链、跳转死链等低质网页。
其中无效低质网页(如被黑),通过百度站长平台提交,可加快检索屏蔽的过程。
五、建库方面
索引展现时效性提升,原来是10天左右,现在提升40%~80%不等!
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
- 思维和经验哪个重要?看懂这个比别人少奋斗5年 2019-04-18
- 思维和经验哪个重要?看懂这个比别人少奋斗5年 2019-04-11
- 做公众号没方向?看懂这4种类型文章,不用慌! 2019-04-10
- 做产品必知的 10 大原则,3 分钟看懂! 2019-04-10
- 2017春运抢票软件哪个好 教你看懂刷票原理! 2019-04-10
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash