Python 检测系统时间,k8s版本,redis集群,etcd,mysql,ceph,kafka

2020 年 2 月 24 日
笔记

一、概述

线上有一套k8s集群，部署了很多应用。现在需要对一些基础服务做一些常规检测，比如：

系统时间，要求：k8s的每一个节点的时间，差值上下不超过2秒
k8s版本，要求：k8s的每一个节点的版本必须一致
redis集群，要求：1. 查看cluster nodes状态 2. AOF状态
etcd，要求：访问etcd的api，能获取到版本信息，说明etcd服务正常
mysql，要求：获取mysql运行统计时间，能获取说明mysql服务正常
ceph，要求：使用ceph osd tree命令查看ceph节点信息
kafka，要求：使用生产者模式写入一个消息，消费者模式能得到同样的消息，则kafka服务正常

python远程执行命令

上面这么多要求，有一大部分，都需要远程执行命令。那么如何使用python来执行远程命令呢？

使用paramiko模块即可！

paramiko

安装paramiko模块

pip3 install paramiko

使用paramiko

这里，我封装了一个函数ssh2，代码如下：

import paramiko  def ssh2(ip, username, passwd, cmd):      """      使用ssh连接远程服务器执行命令      :param username: 用户名      :param passwd: 密码      :param cmd: 执行的命令      :return:      """      try:          ssh = paramiko.SSHClient()  # 创建一个新的SSHClient实例          # 设置host key,如果在"known_hosts"中没有保存相关的信息，SSHClient 默认行为是拒绝连接，会提示yes/no          ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy())          ssh.connect(ip, 22, username, passwd, timeout=1)  # 连接远程服务器,超时时间1秒          stdin, stdout, stderr = ssh.exec_command(cmd)  # 执行命令          out = stdout.readlines()    # 执行结果,readlines会返回列表          ssh.close()  # 关闭ssh连接          return out      except Exception as e:          print(e)          return False

执行此函数，会返回一个列表。因为是使用readlines，将结果转换为列表了！

如果执行时，输出：

Please use EllipticCurvePublicKey.public_bytes to obtain both compressed and uncompressed point encoding.

原因

paramiko 2.4.2 依赖 cryptography，而最新的cryptography==2.5里有一些弃用的API。

解决

删掉cryptography，安装2.4.2，就不会报错了。

pip uninstall cryptography  pip install cryptography==2.4.2

本文参考链接：

https://blog.51cto.com/wangfeng7399/2376115

二、系统时间

获取时间戳

我们需要获取多台服务器的时间，并且还需要对比时间差。那么最简单办法，就是获取时间戳，它是一段数字，那么数字之间，就可以做减法了！

使用 date +%s 命令，就可以获取时间戳了

root@localhost:~# date +%s  1547546824

对比思路

怎么去对比，每一天服务器的时间戳呢？上面已经获取到时间戳了，关键问题是，如何对比？

构造字典

这里需要构造一个数据字典，将每一台服务器的ip以及时间戳存储一下，数据格式如下：

{    'ip地址': 时间戳,      ...  }

对比数据

首先从字典里面取出第一个值，由于python 3.5是无需的，所以取出的数据，每次可能不一样。不过没有关系，取出之后，再删除即可！

然后将取出的第一个值，和字典中的其他值，做对比即可！注意：时间戳要转换为int类型才行！

完整代码

ntp.py

#!/usr/bin/env python3  # coding: utf-8  import json  import paramiko  def ssh2(ip, username, passwd, cmd):      """      使用ssh连接远程服务器执行命令      :param username: 用户名      :param passwd: 密码      :param cmd: 执行的命令      :return:      """      try:          ssh = paramiko.SSHClient()  # 创建一个新的SSHClient实例          # 设置host key,如果在"known_hosts"中没有保存相关的信息，SSHClient 默认行为是拒绝连接，会提示yes/no          ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy())          ssh.connect(ip, 22, username, passwd, timeout=1)  # 连接远程服务器,超时时间1秒          stdin, stdout, stderr = ssh.exec_command(cmd)  # 执行命令          out = stdout.readlines()    # 执行结果,readlines会返回列表          ssh.close()  # 关闭ssh连接          return out      except Exception as e:          print(e)          return False    # 服务器列表  ip_list = ["192.168.0.172","192.168.0.173"]  username = "root"  passwd = "root"  cmd = "date +%s"  # 获取时间戳命令    result_dic = {}  # 执行结果    for ip in ip_list:  # 遍历ip列表      if not result_dic.get(ip):          # 添加键值对          res = ssh2(ip,username,passwd,cmd)          if res:              res = json.loads(res[0])              result_dic[ip] = res              print("添加键值,ip: ", ip,"value: ",res)          else:              print("ssh连接服务器失败，ip: %s" %ip)    print("结果字典",result_dic)    # 获取第一个ip以及时间戳  first_ip = ""  first_val = ""    for i in result_dic:  # 遍历结果字典      # 获取第一个ip以及时间戳      first_ip = i      res = ssh2(i,username,passwd,cmd)      first_val = json.loads(res[0])      print("第一个ip: ", i,"value: ",first_val)        result_dic.pop(i)  # 删除key,避免下面的for循环重复      break    for ip in result_dic:      d_value = int(first_val) - int(result_dic[ip])      # 判断差值上下不超过2      if d_value <= -2 or d_value >= 2:          print("错误, 上下差值超过2 !!!","ip:",ip,"value:",d_value)      else:          print("正常",ip,"差值为: ",d_value)

执行脚本，输出如下：

添加键值,ip:  192.168.0.172 value:  1547540144  添加键值,ip:  192.168.0.173 value:  1547540145  ...  第一个ip:  192.168.0.172 value:  1547540144  正常 192.168.0.173 差值为:  1

三、k8s版本

获取版本

查看k8s版本，使用命令 kubectl version

root@localhost:~# kubectl version  Client Version: version.Info{Major:"1", Minor:"11", GitVersion:"v1.11.2", GitCommit:"bb9ffb1654d4a729bb4cec18ff088eacc153c239", GitTreeState:"clean", BuildDate:"2018-08-07T23:17:28Z", GoVersion:"go1.10.3", Compiler:"gc", Platform:"linux/amd64"}

那么要获取到 "v1.11.2" ，还需要进一步过滤

root@localhost:~# kubectl version | awk '{print $5}' | cut -d ':' -f 2 | head -1 | cut -d ',' -f 1  "v1.11.2"

对比版本

使用上面的ssh2函数之后，输出的值，是这样的

["v1.11.2n"]

这里会有一个换行符，为了避免这种问题，使用 json.loads() 反序列一下，就可以还原为 v1.11.2，连双引号也没有了！

完整代码

kube_v.py

#!/usr/bin/env python3  # coding: utf-8  # 验证k8s版本    import json  import paramiko  def ssh2(ip, username, passwd, cmd):      """      使用ssh连接远程服务器执行命令      :param username: 用户名      :param passwd: 密码      :param cmd: 执行的命令      :return:      """      try:          ssh = paramiko.SSHClient()  # 创建一个新的SSHClient实例          # 设置host key,如果在"known_hosts"中没有保存相关的信息，SSHClient 默认行为是拒绝连接，会提示yes/no          ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy())          ssh.connect(ip, 22, username, passwd, timeout=1)  # 连接远程服务器,超时时间1秒          stdin, stdout, stderr = ssh.exec_command(cmd)  # 执行命令          out = stdout.readlines()    # 执行结果,readlines会返回列表          ssh.close()  # 关闭ssh连接          return out      except Exception as e:          print(e)          return False    # 服务器列表  ip_list = ["192.168.0.172","192.168.0.173"]  username = "root"  passwd = "root"    cmd = "kubectl version | awk '{print $5}' | cut -d ':' -f 2 | head -1 | cut -d ',' -f 1"  # 获取时间戳命令  result_dic = {}  # 执行结果    for ip in ip_list:  # 遍历ip列表      if not result_dic.get(ip):          # 添加键值对          res = ssh2(ip,username,passwd,cmd)          # print("res",res)          if res:  # 判断不为None              res = json.loads(res[0])  # 反序列化第一行结果            result_dic[ip] = res          print("添加键值", ip,"value",res)    print("结果字典",result_dic)  # 获取第一个ip以及时间戳  first_ip = ""  first_val = ""    for i in result_dic:  # 遍历结果字典      # 获取第一个ip以及时间戳      first_ip = i      first_val = ssh2(i,username,passwd,cmd)        if first_val:          first_val = json.loads(first_val[0])      print("第一个ip", i, "value", first_val)        result_dic.pop(i)  # 删除key，比较下面的for循环重复      break    for ip in result_dic:      d_value = result_dic[ip]      # print("其他服务器,ip",ip,"value",d_value)      # 判断版本是否一致      if first_val == d_value:          print("正常", ip, "版本是", d_value)      else:          print("错误, 版本不一致!!!", "ip:", ip, "value:", d_value)

执行输出：

添加键值 192.168.0.172 value v1.11.2  添加键值 192.168.0.173 value v1.11.2  ...  第一个ip 192.168.0.172 value v1.11.2  正常 192.168.0.173 版本是 v1.11.2

四、redis集群

cluster nodes

查看cluster nodes信息，使用命令

redis-cli -c -h 192.168.0.172 -p 7201 cluster nodes

请确保服务器，已经安装了redis，可以执行redis-cli命令

执行输出：

2a77efc52a1dfec83130b908dbd3809e057956f6 192.168.0.172:7201@17201 slave c036906bf3079fa3da15ef43df545b17c3efa144 0 1547548520000 19 connected  db60724fdae507eda5d72fd1181559bc6da33097 192.168.0.169:7201@17201 slave ed5cfdfd021dcc821fc0749d318e8ac420cc5c14 0 1547548519607 18 connected  ed5cfdfd021dcc821fc0749d318e8ac420cc5c14 192.168.0.143:7201@17201 myself,master - 0 1547548519000 18 connected 0-5460  d4f928c75a2a17d9c30ec77115628eb1840f6ee4 192.168.0.171:7201@17201 slave b8c692d0eff3a5d1ee059878a4213844c6d82ddf 0 1547548520610 21 connected  b8c692d0eff3a5d1ee059878a4213844c6d82ddf 192.168.0.170:7201@17201 master - 0 1547548521614 21 connected 10923-16383  c036906bf3079fa3da15ef43df545b17c3efa144 192.168.0.168:7201@17201 master - 0 1547548518604 19 connected 5461-10922

从上面的输出信息，可以看出，有3个master节点，3个slave节点。其中紫色部分，如果id一致，表示这是一组服务器！

请确保这一组服务器不能同时挂掉，否则会造成数据丢失！

默认redis集群要求至少6个节点，当redis集群中的master节点，挂掉一半时，集群不可用。

也就是说，目前有3个master节点，最多允许1台mater节点挂掉！

判断依据

还有一点，当有任意一个节点状态为fail时，也表示集群不正常！说明：mater节点已经挂掉了一半！

因此，使用python来判断集群是否状态的关键点，就是判断状态中是否有fail即可！

aof状态

在redis.conf配置文件中，有一个参数 appendonly ，表示是否开启aof，默认是关闭的。

那么使用redis-cli可以获取它的状态

redis-cli -c -h 192.168.0.172 -p 7201 config get appendonly

执行输出：

1) "appendonly"  2) "no"

上面这段输出，表示没有开启aof

完整代码

redis.py

#!/usr/bin/env python3  # coding: utf-8  # 检测redis集群    import paramiko    def ssh2(ip, username, passwd, cmd):      """      使用ssh连接远程服务器执行命令      :param username: 用户名      :param passwd: 密码      :param cmd: 执行的命令      :return:      """      try:          ssh = paramiko.SSHClient()  # 创建一个新的SSHClient实例          # 设置host key,如果在"known_hosts"中没有保存相关的信息，SSHClient 默认行为是拒绝连接，会提示yes/no          ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy())          ssh.connect(ip, 22, username, passwd, timeout=1)  # 连接远程服务器,超时时间1秒          stdin, stdout, stderr = ssh.exec_command(cmd)  # 执行命令          out = stdout.readlines()    # 执行结果,readlines会返回列表          ssh.close()  # 关闭ssh连接          return out      except Exception as e:          print(e)          return False    # 服务器列表  redis_apps = ["192.168.0.168","192.168.0.172"]    username = "root"  passwd = "root"  port = "6379"  cmd1 = "cluster nodes"  # cluster nodes状态  cmd2 = "config get appendonly"  # AOF状态    result_dic = {}  # 执行结果    for ip in redis_apps:  # 遍历ip列表      if not result_dic.get(ip):          result_dic[ip] = {}          # nodes          if not result_dic[ip].get('nodes'):              # 添加键值对，统一由192.168.0.167这台服务器执行redis-cli，因为它安装了redis-cli              res = ssh2("192.168.0.167",username,passwd,"redis-cli -c -h {} -p {} {}".format(ip,port,cmd1))              result_dic[ip]['nodes'] = res              print("添加键值,ip: ", ip,"value: ",res)            # aof          if not result_dic[ip].get('aof'):              # 添加键值对              res = ssh2("192.168.0.167",username,passwd,"redis-cli -c -h {} -p {} {}".format(ip,port,cmd2))              # print(res,type(res))              res = res[1].split("n")[0]  # 获取选项值              result_dic[ip]['aof'] = res              print("添加键值,ip: ", ip,"value: ",res)    print("结果字典",result_dic)      # 标志位  flag_nodes = True  for i in result_dic:      for j in result_dic[i]['nodes']:  # 遍历结果列表          if "fail" in j:  # 判断是否有fail状态              print("状态异常: ",j)              flag_nodes = False    # 判断标志位  if flag_nodes:      print("redis cluster nodes 状态正常")  else:      print("redis cluster nodes 状态异常")    # 输出aof状态  print("redis aof状态如下: ")  for i in result_dic:      print("ip: {} 状态: {}".format(i,result_dic[i]['aof']))

执行程序，输出：

添加键值,ip:  192.168.0.168 value: [...]  ...  redis cluster nodes 状态正常  redis aof状态如下:   ip: 192.168.0.168 状态: no  ip: 192.168.0.172 状态: no

五、etcd

etcd api

判断etcd工作是否正常，只需要能访问到api地址，就说明正常，url如下：

http://192.168.0.169:2380/version

完整代码

etcd.py

#!/usr/bin/env python3  # coding: utf-8  # 检测etcd状态    import json  import requests      etcd_list = ["192.168.0.169","192.168.0.168","192.168.0.167"]    for ip in etcd_list:      # 访问api接口，查看版本      response=requests.get('http://%s:2380/version' %ip)      # print(response.content)      res = (response.content).decode('utf-8')      res_dict = json.loads(res)      # print(res_dict,type(res_dict))      print("ip: {} etcd版本为: {}".format(ip,res_dict['etcdserver']))

执行输出：

ip: 192.168.0.169 etcd版本为: 3.3.0  ip: 192.168.0.168 etcd版本为: 3.3.0  ip: 192.168.0.167 etcd版本为: 3.3.0

六、mysql

运行统计时间

查看mysql的运行统计时间，使用命令

show status like "uptime"

完整代码

#!/usr/bin/env python3  # coding: utf-8    import pymysql    conn = pymysql.connect(      host="192.168.0.179",  # mysql ip地址      user="root",      passwd="root",      port=3306  # mysql 端口号,注意：必须是int类型  )    cur = conn.cursor()  # 创建游标    # 查询当前MySQL本次启动后的运行统计时间  cur.execute('show status like "uptime"')    data_all = cur.fetchall()  # 获取执行的返回结果  print(data_all)

执行输出：

(('Uptime', '941067'),)

七、ceph

节点信息

查看节点信息，需要在主节点操作

ceph osd tree

完整代码

#!/usr/bin/env python3  # coding: utf-8    import paramiko    def ssh2(ip, username, passwd, cmd):      """      使用ssh连接远程服务器执行命令      :param username: 用户名      :param passwd: 密码      :param cmd: 执行的命令      :return:      """      try:          ssh = paramiko.SSHClient()  # 创建一个新的SSHClient实例          # 设置host key,如果在"known_hosts"中没有保存相关的信息，SSHClient 默认行为是拒绝连接，会提示yes/no          ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy())          ssh.connect(ip, 22, username, passwd, timeout=1)  # 连接远程服务器,超时时间1秒          stdin, stdout, stderr = ssh.exec_command(cmd)  # 执行命令          out = stdout.readlines()    # 执行结果,readlines会返回列表          ssh.close()  # 关闭ssh连接          return out      except Exception as e:          print(e)          return False    svr_list = ["192.168.0.181"]  username = "root"  passwd = "root"  cmd = "ceph osd tree"  # 查看节点信息    for ip in svr_list:      res = ssh2(ip,username,passwd,cmd)      print(ip,"节点信息如下：")      print("".join(res))

执行输出：

192.168.0.181 节点信息如下：  ID WEIGHT  TYPE NAME           UP/DOWN REWEIGHT PRIMARY-AFFINITY   -1 1.02695 root default                                            -2 0.18399     host xx-node13                                     0.18399         osd.0            up  1.00000          1.00000   -3 0.18399     host xx-node15                                     0.18399         osd.1            up  1.00000          1.00000   -4 0.18399     host xx-node17                                     0.18399         osd.2            up  1.00000          1.00000   -5 0.18399     host xx-node18                                     0.18399         osd.3            up  1.00000          1.00000   -6 0.10699     host xx-node19                                     0.10699         osd.4            up  1.00000          1.00000   -7 0.18399     host xx-node14                                     0.18399         osd.5            up  1.00000          1.00000

八、kafka

创建topic

手动创建名为test的topic

bin/kafka-topics.sh --create --zookeeper zookeeper-1.default.svc.cluster.local:2181,zookeeper-2.default.svc.cluster.local:2128,zookeeper-3.default.svc.cluster.local:2128 --topic test --partitions 1 --replication-factor 1

因为python中的kakfa包无法直接创建 topic，所以需要手动创建

完整代码

由于线上kafka启动了ACL，那么请确保相关用户设置了ACL规则，关于acl的配置，请参考链接：

https://www.cnblogs.com/xiao987334176/p/10110389.html

为了方便，这里直接使用超级用户。注意：超级用户是不需要设置ACL规则的，拥有所有权限

#!/usr/bin/env python3  # coding: utf-8  # 注意：需要手动创建topic才行执行此脚本    import time  from kafka import KafkaProducer  from kafka import KafkaConsumer      class KafkaClient(object):  # kafka客户端程序      def __init__(self, kafka_server, port, topic,content,username,password):          self.kafka_server = kafka_server  # kafka服务器ip地址          self.port = port  # kafka端口          self.topic = topic  # topic名          self.content = content  # 发送内容          self.username = username          self.password = password        def producer(self):          """          生产者模式          :return: object          """            # 连接kafka服务器,比如['192.138.150.193:9092']          producer = KafkaProducer(bootstrap_servers=['%s:%s' % (self.kafka_server, self.port)],                                   security_protocol="SASL_PLAINTEXT",  # 指定SASL安全协议                                   sasl_mechanism='PLAIN',  # 配置SASL机制                                   sasl_plain_username=self.username,  # 认证用户名                                   sasl_plain_password=self.password,  # 密码                                   )            producer.send(self.topic, self.content)  # 发送消息,必须是二进制          producer.flush()  # flush确保所有meg都传送给broker          producer.close()          return producer        def consumer(self):          """          消费者模式          :return: object          """            # 连接kafka,指定组为test_group          consumer = KafkaConsumer(topic, group_id='test_group', bootstrap_servers=['%s:%s' % (kafka_server, port)],                                   sasl_mechanism="PLAIN",                                   security_protocol='SASL_PLAINTEXT',                                   sasl_plain_username=self.username,                                   sasl_plain_password=self.password,                                   )            return consumer          # for msg in consumer:          #     recv = "%s:%d:%d: key=%s value=%s" % (msg.topic, msg.partition, msg.offset, msg.key, msg.value)          #     print(recv)        def main(self):          startime = time.time()  # 开始时间            client = KafkaClient(self.kafka_server, self.port, self.topic, self.content,self.username,self.password)  # 实例化客户端          client.producer()  # 执行生产者          print('执行生产者')          consumer = client.consumer()  # 执行消费者          print('执行消费者')          print('等待结果....')          flag = False            for msg in consumer:              # recv = "%s:%d:%d: key=%s value=%s" % (msg.topic, msg.partition, msg.offset, msg.key, msg.value)              # 判断生产的消息和消费的消息是否一致              print(msg.value)              # print(self.content)              if msg.value == self.content:                  flag = True                  break            consumer.close()  # 关闭消费者对象          endtime = time.time()  # 结束时间            if flag:              # %.2f %(xx) 表示保留小数点2位              return "kafka验证消息成功,花费时间", '%.2f 秒' % (endtime - startime)          else:              return "kafka验证消息失败,花费时间", '%.2f 秒' % (endtime - startime)      if __name__ == '__main__':      kafka_server = "kafka-1.default.svc.cluster.local"      port = "9092"      topic = "test"      # 测试消息      content = "hello honey".encode('utf-8')        username = "admin"      password = "admin"        client = KafkaClient(kafka_server,port,topic,content,username,password)  # 实例化客户端      print(client.main())

执行程序，输出：

执行生产者  执行消费者  等待结果....  b'hello honey'('kafka验证消息成功,花费时间', '3.61 秒')

注意：第一次执行时，会卡住1分钟。多执行几次就会很快了，至于什么原因，不知道！

就是在执行这一行代码时，会卡住

for msg in consumer:

Python 检测系统时间,k8s版本,redis集群,etcd,mysql,ceph,kafka

一、概述

python远程执行命令

paramiko

使用paramiko

原因

解决

二、系统时间

获取时间戳

对比思路

构造字典

对比数据

完整代码

ntp.py

三、k8s版本

获取版本

对比版本

完整代码

四、redis集群

cluster nodes

判断依据

aof状态

完整代码

五、etcd

etcd api

完整代码

六、mysql

运行统计时间

完整代码

七、ceph

节点信息

完整代码

八、kafka

创建topic

完整代码

VirMach 便宜 VPS

QNews

Python 检测系统时间,k8s版本,redis集群,etcd,mysql,ceph,kafka

一、概述

python远程执行命令

paramiko

使用paramiko

原因

解决

二、系统时间

获取时间戳

对比思路

构造字典

对比数据

完整代码

ntp.py

三、k8s版本

获取版本

对比版本

完整代码

四、redis集群

cluster nodes

判断依据

aof状态

完整代码

五、etcd

etcd api

完整代码

六、mysql

运行统计时间

完整代码

七、ceph

节点信息

完整代码

八、kafka

创建topic

完整代码

分享此文：

Related Posts

漫画 | CPU战争40年，真正的王者终于现身!

Qt开发Activex笔记（二）：Qt调用Qt开发的Activex控件

docker 运行Django项目

Grafana 监控系统是否重启

VirMach 便宜 VPS

QNews

热门搜寻