读懂这一篇,集群节点不下线( 四 )

读懂这一篇,集群节点不下线

----读懂这一篇 , 集群节点不下线//---- http://


简介:排查完全陌生的问题、完全不熟悉的系统组件 , 是售后工程师的一大工作乐趣 , 当然也是挑战 。 今天借这篇文章 , 跟大家分析一例这样的问题 。 排查过程中 , 需要理解一些自己完全陌生的组件 , 比如 systemd 和 dbus 。 但是排查问题的思路和方法基本上还是可以复用了 , 希望对大家有所帮助 。

作者 | 声东  阿里云售后技术专家

问题一直在发生

1. I'm NotReady

阿里云有自己的 Kubernetes 容器集群产品 。 随着 Kubernetes 集群出货量的剧增 , 线上用户零星的发现 , 集群会非常低概率地出现节点 NotReady 情况 。

据我们观察 , 这个问题差不多每个月就会有一到两个客户遇到 。 在节点 NotReady 之后 , 集群 Master 没有办法对这个节点做任何控制 , 比如下发新的 Pod , 再比如抓取节点上正在运行 Pod 的实时信息 。

推荐阅读