如何用Python实现多站点运维监控,提升业务价值…
2018-08-13 07:48:55来源:博客园 阅读 ()
在小型公司里如果产品线单一的话,比如就一个app, 一般1~2个运维就够用了。如果产品过于庞大,就需要多个运维人员。
但对于多产品线的公司来说,运维人员就要必须分多个人负责,因为超过200个站点让1个人维护,那工作量是巨大的,就单单给开发的沟通时间,估计就要占用一整天时间了。
目前我所在的公司站点非常多,为管理方便,之前我们这里是实行过一段叫站长制的方式,就是不同人承担不同的项目维护,每个人就是自己所负责项目的站长,这个站长制实行完后,就有个监控问题,之前只要站点有问题,是每个人都可以收到,但为了防止报警泛滥,所以就需要把监控改成故障站点只发给负责该站点的站长。
有了这个背景,我们今天就来实现这个需求,脚本基本实现首先要有一个能够报警的函数,还需要一个检查站点是否故障的函数,最后一个函数是如果站点恢复后,要重新加入要监控的列表中,到这基本差不多了,但如果站点太多,用循环去检查还是效率太低了点,所以我们考虑采用线程并发执行。
进群:548377875 即可获取数十套PDF哦!
如果都想清楚了,就可以开始着手我们代码的编写了。
首先导入我们所需要的模块:
from threading import Thread
import requests
import time
import smtplib
然后定义要检查的站点列表和报警邮件发送人:
clients = {
"http://www.mindg.cn": "xxx@xx.com",
"http://www.google.com": "gg@gg.com",
"http://www.baidu.com": "cc@cc.com"
}
接下来实现检查是否站点故障函数:
temp_dic = {}
def site_up():
while True:
for client, email in clients.items():
try:
r = requests.get(client)
if r.status_code == 200:
print client, 'Site ok'
time.sleep(60)
else:
print client, 'Site first registered as down - added to the "site down" monitoring'
temp_dic[client]=email
del clients[client]
except requests.ConnectionError:
print client, 'Site first registered as down - added to the "site down" monitoring'
temp_dic[client]=email
del clients[client]
这个函数就是用requests检查站点返回的状态码,如果是200就认为正常,否则就把该站点加到临时的一个字典中,然后从检查字典中删除该站点。
因为站点偶尔出现问题不代表是站点问题,也可能是网络抖动,所以重新检查站点是否故障要等待一个固定时间,实现如下:
def site_down():
while True:
time.sleep(900)
for client, email in temp_dic.items():
try:
r = requests.get(client)
if r.status_code == 200:
print client, 'Site is back up!!'
email_sender('Site back up!! ', email, client)
clients[client]=email
del temp_dic[client]
else:
email_sender('Site down!! ', email, client)
print client, 'Site Currently down - email sent'
except requests.ConnectionError:
email_sender('Site down!! ', email, client)
print client, 'Site Currently down - email sent'
这个函数就是从临时字典中取出第一次检查出有问题的站点,15分钟后再次检查,如果返回200,就发送邮件,并从临时字典中移除,重新加入监控列表中,如果仍然未恢复,就要发送报警邮件了。
最后,我们采用并发的方式执行函数:
t1 = Thread(target = site_up)
t2 = Thread(target = site_down)
t1.start()
t2.start()
如果到这里就算结束这篇文章, 大家拿着脚本肯定是不能运行的。
因为少代码,有兴趣的也可以sleep 2分钟,仔细再看看,是否发现漏掉了什么?是的,我还没给出发报警邮件的函数代码,不但没贴而且不妨告诉大家我是故意的,之所以没直接给呢
是因为现在报警方式太多了,我建议大家在这个脚本基础上进行修改实现自己想要的报警方式
就当是留个作业吧,毕竟多动手才能提高编程水平,其它不多说了
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
- python3基础之“术语表(2)” 2019-08-13
- python3 之 字符串编码小结(Unicode、utf-8、gbk、gb2312等 2019-08-13
- Python3安装impala 2019-08-13
- 小白如何入门 Python 爬虫? 2019-08-13
- python_字符串方法 2019-08-13
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash