ODCC 项目经理、中国电信北京研究院云计算与大数据产品线系统分析师赵继壮:通用服务器网络功能硬件卸载研究

2017/8/22 17:30:55 来源:DTDATA 作者: 分类:会议活动

赵继壮:大家好,我们会经常跟一些厂商对新产品新技术进行交流,可能干的最多的事情结合运营商的实际业务需求和机房环境提出尖锐的质疑。比如整机柜已经出现很多年了,这种形态确实密度高、又省电,但电信机房不都是A类机房,供电、承重会有问题,而且相比整机柜,定制化机架服务器可以实现更灵活的硬件配置和形态组合来满足业务需求。运营商在推SDN、SDS,都属于用软件定义数据中心,跟硬件资源池化的路线不太一样。我们会问为什么一定需要硬件资源池化,原来服务器CPU、硬盘、内存的配比都是经过计算和实际验证的模型,我们不一定需要硬件资源池化,硬件资源池化反而挺难实现的,它的成本也比较高。




现在出现了单卡1.5PB的SSD,性能也无与伦比的强大,但我们现在需要那么高性能的SSD么?我们目前的分布式存储系统的硬件配置可以通过水平扩展满足当前业务的需求。运营商对硬件新技术的使用会稍微滞后一些,但不代表我们不关注这个,我们是非常关注ODCC硬件的发展潮流,硬件的进步比软件更容易带来产品的整体飞跃,我们在等待新产品性价比最高的时点。


我今天跟大家汇报的是通用服务器网络功能硬件卸载,包括四方面内容,VXLAN网卡硬件加速、RoCE网卡、Open vSwicth网卡卸载,VNF网卡卸载。为什么要做这件事情?你们可能很清楚,VXLAN网卡硬件加速、RoCE网卡很多年前都有,这是因为随着NFV的推进,运营商云计算资源池会部署很多网络密集型的应用,这种情况下这两个技术就很有必要了,因为资源池中的CPU非常宝贵。比如我们定制化服务器里的存储型服务器,它CPU的主频包括核数都是很有限的,我们在在实际测试中发现个问题,就是在一些高负载的情况下用了NVME的SSD整体性能反而出现下降,网络IO计算与存储软件本身的计算对CPU构成了争抢。VXLAN网卡硬件加速,VXLAN的重要性对于数据中心是毋庸置疑的。Open vSwicth网卡卸载,VNF网卡卸载这两个部分内容比较新,我们前期与厂商开过几次会议进行交流,但是到今天可能还没有拿出一个能在现有资源池中广泛使用的成熟方案,所以先不讲了。


VXLAN网卡硬件加速,最有吸引力的是左上角这个图,原来是17个VM现在是36个VM,CPU利用率降低到26%,当然这得看是什么应用,普通应用达不到这种效果。右面这张图把TCP分包的切片,收端的包组合都放到网卡硬件上来完成,网卡必须能解析出VXLAN中的TCP报文,解析不到TCP就没有办法进行多队列的支持。RSS多队列可以把网卡接收到的数据均匀分布到多个有独立中断号的硬件队列上,通过把中断分配给不同的CPU并行处理,可大幅提高吞吐量。我们这个服务器模型,有一款模型确实对中断队列的多少没有做限制,但是实际使用当中发现有的厂商提供的网卡它的硬件队列数特别少。比如右上角这张图,所有数据都在一个硬件队列里只能由一个CPU核心去处理,这个CPU的主频是有限的,所以一下就出问题了。


VXLAN网卡硬件加速,主力厂商的虚拟化平台,如VMWare的NSX和Openstack都支持。网卡方面Mellanox、Broadcom、Cavium、Intel公司的主流网卡均支持。测试方法是使用iperf3工具进行测试。这是公开测试的数据,我们既需要一些业界的测试结果和我们自己的一些测试结果。TSO这个硬件加速对于整个系统的性能影响还是非常大的。RoCE网卡,现在IB交换机有点贵,现在支持RoCE的网卡比较多,我们如果能把网卡上的RoCE的功能打开,不增加成本的情况下给数据中心的存储网络有一个比较大的性能提升。但RoCE有问题,普通Socket不兼容。


RoCE编程,我原来是一个资深软件工程师,不看编程接口的话,我们始终在上面进行选型是有问题的,我们只有看到代码具体实现,心里就比较靠谱了,做一些决策的时候我们就有底气。RoCE的编程界面与TCP比较,它跟TCP都是需要服务器先bind,这个流程仍然是经过内核协议站,但是数据是不经过内核协议站的,这种设计是非常到位的。


OvS硬件卸载,我不重点展开,它确实比较复杂,普通网卡也可以做一部分的数据平面的OvS硬件卸载,一部分是智能网卡,智能网卡可以做全部的OvS硬件卸载,为什么要做OvS硬件卸载,我们知道OvS的功能相对来说比较固化,既然固化,网卡厂商有动力把它完全做到硬件层面,这是一方面,另一方面现在随着25G、50G的普及,虚机里面的流量特别大,这种大流量对于CPU的占用已经非常高了,OvS本身在插大容量网卡的时候CPU的消耗非常高,这是有实际数据说话的,要是放到硬件里面实现确实是一个好方法,但是这个也有问题,它必须跟虚拟化层比较好的做兼容,要是不兼容的话这个事情还是没有办法做下去。


VNF硬件卸载,这个词稍微新一点,这张图想说明现在的NFV都是控制层面,中国电信现在主要是vIMS,我们院主导vBRAS,vBRAS主要是控制平面带一部分转发平面,可以弥补传统硬件BRAS 会话支持小的问题。NFV往后面演进的话,转发平面也是要NFV化的,涉及到几种选型方案,一个是用大容量网卡,一个是用FPGA卡,一个是用可编程的智能网卡。这几个方面我们反复进行讨论,到底哪种现在没有一个定论,我个人倾向于可编程智能网卡,可编程智能网卡是用C语言写代码很容易实现,但是FPGA开发,那个东西是并行的,调错不是那么好做的。可编程智能网卡跟各个主力厂商调研了一圈,它的价格并不是特别高,当然价格跟采购量是有关系的,运营商对于成本这块看得非常重。现在NFV存在一个问题,IT厂商进入得不够,VNF还是不多,运营商的业务有那么复杂吗,我认为不那么复杂,运营商的业务相对来说标准化。


谢谢郭组长、李博士,谢谢大家。

相关资讯

    暂无相关的资讯...