读懂这一篇,集群节点不下线(12)

2. 零散的信息

因为无计可施 , 所以只能做各种测试、尝试 。 使用 busctl tree 命令 , 可以输出所有 bus 上对外暴露的接口 。 从输出结果看来 , org.freedesktop.systemd1 这个 bus 是不能响应接口查询请求的 。

使用下边的命令 , 观察 org.freedesktop.systemd1 上接受到的所有请求 , 可以看到 , 在正常系统里 , 有大量 Unit 创建删除的消息 , 但是有问题的系统里 , 这个 bus 上完全没有任何消息 。

gdbus monitor --system --dest org.freedesktop.systemd1 --object-path /org/freedesktop/systemd1

分析问题发生前后的系统日志 , runC 在重复地跑一个 libcontainer_%d_systemd_test_default.slice 测试 , 这个测试非常频繁 , 但是当问题发生的时候 , 这个测试就停止了 。

所以直觉告诉我 , 这个问题可能和这个测试有很大的关系 。

推荐阅读