通信技术|Facebook大规模服务中断事件调查:BGP与DNS服务器离线所致( 二 )



通信技术|Facebook大规模服务中断事件调查:BGP与DNS服务器离线所致
文章图片

与此同时,尽管仍有其它 Facebook IP 地址在被路由,但它们所能起到的效果也相当有限 —— 毕竟只要 DNS 服务躺下了,与 Facebook 相关的服务也变得实际上无法访问了 。

通信技术|Facebook大规模服务中断事件调查:BGP与DNS服务器离线所致
文章图片

Cloudflare 指出,其会跟踪全球网络中观察到的所有 BGP 更新与公告 。然而 UTC 时间 15:40 左右,Cloudflare 留意到了 Facebook 的路由变更高峰,麻烦在这个时候开始集中爆发 。

通信技术|Facebook大规模服务中断事件调查:BGP与DNS服务器离线所致
文章图片

说到这,本次 Facebook 大规模服务中断的前因后果已基本疏离完成 。首先是路由被撤回,接着 Facebook 的 DNS 服务器离线 。

通信技术|Facebook大规模服务中断事件调查:BGP与DNS服务器离线所致
文章图片

问题发生一分钟后,Cloudflare 工程师们开始思考为何 1.1.1.1 无法解析 facebook.com、甚至一度怀疑是自家公司的系统出现了问题 。

通信技术|Facebook大规模服务中断事件调查:BGP与DNS服务器离线所致
文章图片

视频截图(来自:USENIX | YouTube)
最后,Santosh Janardhan 在 2021 年 10 月 4 日(本周一)更新的一篇文章中指出,该问题是由于 Facebook 在协调其数据中心之间网络流量的骨干路由器的配置变更所引发的 。

NSDI 21  Running BGP in Data Centers at Scale - USENIX(via)
感兴趣的朋友,可观看 NSDI '21 学术会议上的这段视频,来加强对于边界网关协议(BGP)的深度理解 。
访问:
阿里云 - 最高1888元通用代金券立即可用

推荐阅读