Facebook公司采用开源工具检测数据中心网络故障

2016/2/22 13:50:09 来源:UPS应用 作者:apple.lei编辑 分类:行业动态

   几年前,Facebook关闭了一个数据中心,以测试其应用的灵活性。该公司工程主管杰瑞•帕瑞科斯表示这个测试顺利。该数据中心的关闭测试没有*客户对Facebook网站的访问。


   Facebook和其它网络规模的数据中心运营商投资数亿美元甚至数十亿美元建立全球性的互联网服务,将重点转向数据中心的弹性冗余和自动化的基础设施–电源和冷却系统–软件驱动的故障。一个由许多服务器组成的全球分布式系统,可以很容易地失去某些服务器,而不会对应用程序的性能有任何重大的影响。


   这并不是说数据中心运营商已经放弃了备份发电机,UPS系统,自动转换开关。人们仍然可以在Facebook数据中心可以看到所有这些东西,只是这些设施不再是最后单一的防线。


   如今,Facebook公司开放一些软件工具的源码,其内置的软件工具可以帮助工程师在几秒钟内检测到电力中断的位置,并迅速隔离故障,避免更大范围的问题。


   该工具是一个名为NetNORAD系统,可以不断监控整个Facebook的数据中心基础设施的数据包丢失率和延迟。并使用数据分析,可以检测到异常模式和触发警报,通常发生在30秒内的故障。


   “我们的规模意味着设备故障每天都有可能发生而且确实在发生,我们努力阻止那些必然事件对任何使用我们的服务的客户的影响。”Facebook公司网络工程师彼得•切赫拉普科霍尔在一篇博客文章中写道。“最终的目标是检测网络中断,并在几秒钟内自动地减少网络*。相反,采用人工调查可能需要以分钟计算,甚至是小时。”


   Facebook公司的NetNORAD组件是开源的响应者,系统采用一组服务器不断监测Facebook公司数据中心的所有服务器,基于他们接收响应数据包丢失和延迟的数据,并采用自动确定故障确切位置的工具fbtracert。


相关资讯