读懂这一篇,集群节点不下线(13)
另外 , 我使用 systemd-analyze 命令 , 打开了 systemd 的调试日志 , 发现 systemd 有 Operation not supported 的报错 。
根据以上零散的知识 , 只能做出一个大概的结论:org.freedesktop.systemd1 这个 bus 在经过大量 Unit 创建删除之后 , 没有了响应 。
而这些频繁的 Unit 创建删除测试 , 是 runC 某一个 checkin 改写了 UseSystemd 这个函数 , 而这个函数被用来测试 systemd 的某些功能是否可用 。 UseSystemd 这个函数在很多地方被调用 , 比如创建容器、查看容器性能等操作 。
3. 代码分析
这个问题在线上所有 Kubernetes 集群中 , 发生的频率大概是一个月两例 。 问题一直在发生 , 且只能在问题发生之后 , 通过重启 systemd 来处理 , 这风险极大 。
我们分别给 systemd 和 runC 社区提交了 bug , 但是一个很现实的问题是 , 他们并没有像阿里云这样的线上环境 , 他们重现这个问题的概率几乎是零 , 所以这个问题没有办法指望社区来解决 。 硬骨头还得我们自己啃 。
推荐阅读
- 地下城堡|《代号:破晓》官网“暗藏”剧情,你都读懂了吗?
- |开始·这是一个开始?开始
- 北凉悍刀行|这是一篇超详细的《北凉悍刀行》手游攻略
- 打野|王者荣耀:S25赛季打野需要注意什么?读懂这篇攻略,轻松上分
- 小智|《宝可梦》与火系御三家的对战,小智靠逆属性赢得对战胜利?
- 剑网3|剑三史上开车最离奇的外观,只因一篇818,便让黄牛高价囤货
- 地下城与勇士|DNF:零氪与充钱的差距到底有多大?这一篇文章将颠覆你的认知!
- 我的世界|我的世界:没有女朋友?那还不看过来,一篇文章教你找老婆
- 地下城与勇士|书荒是不可能的,这辈子都不可能书荒(DNF一篇)
- s5|一篇文章彻底玩懂云顶之弈S5赛季!轻松玩会所有阵容!