[精华] 怎么屏蔽网络机器人搜索?

2009-05-13 04:41:25来源:未知 阅读 ()

新老客户大回馈,云服务器低至5折


[精华] 怎么屏蔽网络机器人搜索?
http://www.chinaunix.net 作者:
wangbin
  发表于:2003-09-28 18:42:22

发表评论
】【
查看原文
】【
BSD讨论区
】【
[url=javascript:window.close()]关闭[/url]

请问大家怎么屏蔽网络机器人搜索?怎么防范像针对IE的攻击?
我眼巴巴的看着每天Erro.log膨胀,不知道有什么办法可以不纪录这个日志?
谢谢!

mb
回复于:2003-09-28 09:07:37

什么日志,改一下syslog.conf

hmkart
回复于:2003-09-28 09:36:12

什么网络机器人搜索?是指google一样的搜索引擎吗?
一般这些spider都是按robots协议去抓取的,在你站点根目录下放
robots.txt文件,写上你要屏蔽的目录就可以了

wangbin
回复于:2003-09-28 09:58:11

不知道什么样的,老是在搜索robot.txt 整的我的Apache不停的出现错误,平均每分钟日志增长3K,有什么办法限制呢!
我临时是这样做的,使用轮番日志
CustomLog "|/www/bin/rotatelogs /www/logs/secfocus/access_log 86400" common  
  

wangbin
回复于:2003-09-28 10:01:14

还有一个问题请教,我删除了apache的日志,他就不再记录了,这样会不会产生内存分配的错误?会不会导致系统崩溃?

shiv
回复于:2003-09-28 10:23:06

应该不会的
日志和内存分配有关系吗?

找工作ing
回复于:2003-09-28 10:30:36

做人要有志气,怎么能随便就跪呢?

daisy_chi
回复于:2003-09-28 14:50:21

还是没有答案
我的APACHE也是这样的

kinux
回复于:2003-09-28 15:15:35

newsyslog 不就行了吗

wangbin
回复于:2003-09-28 17:54:51

编辑     /etc/crontab  
采取定时执行 newsyslog

HonestQiao
回复于:2003-09-28 17:57:16

禁止搜索引擎收录的方法
  
一.什么是robots.txt文件?
  搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。
  您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
二. robots.txt文件放在哪里?
  robots.txt文件应该放在网站根目录下。举例来说,当robots访问一个网站(比如http://www.abc.com)时,首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。
网站 URL 相应的 robots.txt的 URL  
http://www.w3.org/ http://www.w3.org/robots.txt  

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:[精华] freebsd系统日志与备份

下一篇:Move BSD to an NewDisk