读懂这一篇,集群节点不下线( 十 )

分析发现 , runC 停在了向带有 org.free 字段的 dbus 写数据的地方 。 那什么是 dbus 呢?在 Linux 上 , dbus 是一种进程间进行消息通信的机制 。

2. 原因并不在 Dbus

我们可以使用 busctl 命令列出系统现有的所有 bus 。 如下图 , 在问题发生的时候 , 我看到客户集群节点 Name 的编号非常大 。 所以我倾向于认为 , dbus 某些相关的数据结构 , 比如 Name 耗尽了引起了这个问题 。

Dbus 机制的实现 , 依赖于一个组件叫做 dbus-daemon 。 如果真的是 dbus 相关数据结构耗尽 , 那么重启这个 daemon , 应该是可以解决这个问题 。 但不幸的是 , 问题并没有这么直接 。 重启 dbus-daemon 之后 , 问题依然存在 。

在上边用 strace 追踪 runC 的截图中 , 我提到了 , runC 卡在向带有 org.free 字段的 bus 写数据的地方 。 在 busctl 输出的 bus 列表里 , 显然带有这个字段的 bus , 都在被 systemd 使用 。 这时 , 我们用 systemctl daemon-reexec 来重启 systemd , 问题消失了 。

推荐阅读