Google通过提交表单抓取新页面

2019-03-05 来源：点石互动

Google虽然已经是抓取页面最多的搜索引擎，但还是不满足，因为有很多网页和信息是很难被发现和抓取的。这也就是为什么做网站时一定要注意搜索引擎友好。

现在Google开始提供提交表单（form）发现其后的网页。本想写个详细说明，刚好看到幻灭已经写了，就直接引用主要内容如下。

之前我们已经知道Googlebot除了能抓取文本、视频、音频、Flash等类型的内容外，它还可以通过JS代码抓取链接。并且在未来，Googlebot还有望直接识别图片及视频里的文字。为了进一步抓取互联网的内容，Google宣布Googlebot已可通过提交表格抓取更多内容。

据Google所述，当前Googlebot正对一小部分高质量网站进行表格提交的试验。当Googlebot发现这些网站上有HTML表格时（即检测到时），它就会自动从网站上选择一些词语输入表格的文本框里，然后再选择不同的按钮、勾选项及验证项，再提交表格。提交表格后一旦 Googlebot认为出现的新内容是合法并且是有趣及独特的，它就可能会把内容抓取进Google的搜索结果索引数据库里。这意味着Googlebot 现在已经懂得通过提交表格而获得新内容。

同时Google也强调，如果网站的robots.txt文件里禁止了对表格进行了隐藏，不希望表格提交后所产生的链接被抓取，那Googlebot 是不会抓取的。此外，当前Googlebot只提交GET类型的表格。比如当表格需要输入用户个人信息比如密码、用户名、联系人等，Googlebot是会自动略过这些表格的。

这种表格抓取当前只是一个小范围的试验，Google表示不会对网站造成影响。既不会对网站的PR值造成影响，也不会对网站的正常抓取、排名等造成影响。

Matt Cutts也写了个帖子举例说明这么做的好处。有很多网站首页只是以表单方式列出公司下属的各地区分站，没有以链接形式列出各分站。这种网站以前是不能被深度收录的，因为Google不提交表单，就发现不了隐藏在表单后面的URL。

这当然给一些网站的收录创造了机会，是否也会对某些公司网站带来一定的安全风险？网站某部分不想被收录的话，赶紧用robots.txt文件禁止吧。

标签： Google 提交表单抓取新页面

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点！
本站所提供的图片等素材，版权归原作者所有，如需使用，请与原作者联系。

上一篇:Google对选择搜索引擎优化排名公司的建议

下一篇:Google、Baidu搜索结果页面点击分配

最新资讯

热门推荐