华为网络产品线系统测试高级工程师 许可:高速以太接口的测试探讨

2017/8/22 18:07:45 来源:DTDATA 作者: 分类:会议活动

许可:大家下午好,华为有很多测试经验,今天的机会非常难得。我是从实验室走出来的,今天来出差之前我还在在实验室和同事进行100G端口的测试。很高兴能有这个平台把自己的浅薄的认识和经验分享给大家。题目起得有点大,高速以太接口的测试探讨,我的切入点比较小,大家比较容易理解。这个范围如果讲起来几天几夜都讲不完,我们只是浮光掠影地看一看当前的测试怎么解决实际现网的问题。分三部分,以太端口测试概况、当前测试常用方法以及面临的挑战。

以太端口发展到现在不过30年时间,但是它的发展速度是非常快的,最典型特点是速率非常高、种类越来越多。最早的10M,到现在即将大规模应用的200G、400G的速率。最早10M的速率都是用双绞线的方式。到了100G这个阶段,它的接口非常丰富,有电信号、经过背板的信号、双绞线、各种各样的光,标准特别多。高速以太接口,有一个问题是怎么定义高速?以前10M时代简直不能想象GE是什么样子,那时候GE就是高速,现在GE根本不是高速了,今天谈的是400G,400G之后,1T的速率商用的时候,400G说不定也不是高速了。我理解的高速是针对介质而言的,当传输速率达到介质的物理极限的时候,这种速率,就是高速了。

 双绞线的接口是最早的以太的接口,到现在25G、40G标准的发布,以及随着物联网行业崛起的2.5G、5G电口,2.5G和5G通常配合POE用起来比较爽。铜缆在数据中心里应用得非常多,比如RACK内的互联。铜缆测试方法这些年变化不是很大,发送端的指标测试,抖动,接收端抖动测试等等。常用的还有极限测试。比如规格是支持5米,但我们实际要测到7米甚至10米,看到达到什么样的极限才会很问题。光信号分单模和多模,单模主要是应用在长距上面,100G之前测试方法上都是基本一致的,100G最早是10×10G,现在用比较多的是4×25G,测试方法变化不是很大。100G的时候涌现了很多实现方式,不仅是光的传输方式,类型也比较多,都能实现100G的互联。比如QSFP28,CFP等等。200G、400G信号发生了很重大的变化,PAM4信号的应用,给整个产业领域带来的挑战都非常大。从连接器到PCB,再到测试的仪表,以及最基本的芯片的要求都非常高。对信号有新的衡量标准,比如TDECQ,还有一些新的测试码型用于这些指标的测试。由于PAM4自身的特点,会对对CDR的要求更高,这里的CDR是测试组网的CDR,CDR如果不好的话,对我们的测试结果影响是非常大的,让我们不能真实的看到设备发出的信号。

讲讲当前的测试方法,这是我自己个人的总结,ODCC发布的标准里面这些内容都已经涵盖了,这是个非常好的事情。这个简单的组网,是我们数据中心最小单元的互联,HOST可以是交换机可以是服务器的网卡,之间使用module通过光信号进行互联。从灰盒的角度来看,测试可以分为三部分,兼容性的测试,包括物理层的测试、二三层的测试、以及更高层的测试,这里的兼容性测试包括端到端的HOST to HOST,也包括HOST to Module。这里面也包含一致性的测试,一致性测试就是不同厂家不同批次的产品的互联互通。第二是性能测试,比如线速测试和高速用的纠错功能的测试。可靠性测试,例如高低温运行/启动,反复插拔/上下电。可靠性测试是极其苛刻的,比如我们通常的设备工作0-40摄氏度,实际我们摸底零下5度零下55度,甚至更宽的温度范围。这个条件不管对整个系统的散热还是硬件里的时钟电源都是非常严酷的,当然我们很喜欢用这种方式激发深层次的问题、概率性的问题,什么是概率性的问题?可能网上十年出一次,在我们实验室三天就把这个问题激发出来。

举个实际测试的例子。还是刚才的组网。信号分两种,光信号和电信号,所有输出的信号都要进行指标的测试,输入的信号进行压力测试,容错容限的测试,为什么要这么做?这步测试是保证了前面所说的测试能够顺利进行,如果输出的信号不满足要求,别人的接受根本搞不定,不能识别你的信号,那做后面的兼容性测试干吗?以Host(音)测试举例。分两步,第一部是Calibration。我们需要一个Crosstalk信号加到被测设备的接收端。测试的时候要模拟真实的情况测试,实验室环境和线网环境不一样是不行的。HCB和MCB,在以太测试里面是非常有名的夹具,不管是做网卡、交换机或者模块都会用到这两个夹具。HCB,就是host compliance board,是把HOST高速serdes电信号引出来,MCB是把Module的serdes引出来。测试组网的时候我们会把刚才校准好的信号加到被测设备的接收端,再测发送端的信号。

模块的测试跟这个类似,最大的差别是模块的测试需要一个辅助设备,为什么要辅助设备?因为模块Module并不能主动的往外发信号,这就需要我们用辅助设备给它发一个光信号,模块用这个光信号转变为电信号。光信号会有一些要求,比如希望能发出什么样的码型,速率是多少等等。这两页组网画起来非常简单,就几个框就可以了,但实际测试的时候我花了两个月时间才把所有东西真正测起来。为什么?因为速率达到一定阶段了以后对我们的测试组网每一个细节都要求得非常高。SMA是3.5毫米的规格,带宽远远不够,到后面2.92毫米也不够,我们要用2.4毫米的规格。测试会加一段线缆,这段线缆是有损耗的,我测到的信号是衰减过后的信号,那怎么行呢?怎么去掉损耗的影响,通常是去嵌,去嵌以后信噪比变差了,看到的还不是真实的信号。所以从测试设计到测试执行实际需要花费很多时间。

说说常用的误码率的测试。这是以太接口常见的测试方法,现在也在用,置信度是99.99999%,误码率是10的-12次方的要求。测试误码率需要花费多长时间?GE是16118秒,大概4个半小时,两场电影的时间。对GE来说已经比较严酷到了,100G 161秒,400GE 40秒,这就远远不够了。我们ODCC在测试标准里有很多可靠性的测试,在高温底下测,在低温底下测,任何温度下长时间跑零误码,才能满足客户的要求。我们零误码的目标要通过所有测试保障,而不是简单的数值的堆砌,10的-12次方就可以了吗,用户是不接受的。我们共同想办法,我现在还没有想到好的办法,多测,更多的样本量更长的时间,让我们的设备真正到网上的时候不出问题。

这些都是挑战。我简单截取了一部分行业的预估,主要是数据中心即将要用的400G,橙色是标准的研究阶段,灰色会投一些测试芯片,黄色是第一款的样片到系统的集成测试到广泛的部署。到2017年Q2,现在是Q3了,整个行业比较稳定了,实验室里很多设备已经完成了测试,今天上午主会场讲的AI和VR的应用,实际都要基于这些高速的互联,。400G在实际单板里都在什么位置?这是交换机的架构,很简单,左边是交换网板,中间是背板,现在很多都没有背板了,前面是线卡。这些信号实际应用会带来很多测试,一个系统设计起来看上去容易,但是经过我们的测试说可以到现网上使用了却有很多的挑战,PAM4的测试方法,有4个电平,眼睛都是三只眼。电平多,边沿多,交叉点多。眼也非常多。这些要求更好的信噪比,更复杂的,要求更高的预加重和均衡的技术。信号本身特点也带来天然的DDJ。如何区分真实的DDJ和着编码方式带来的DDJ?还有光器件特性使得眼睛并不是对其的,而是斜着的。这样的信号对我们的测试来说都是很麻烦的事情。

还有一个麻烦的事情是标准越来越多,IEEE、OIF,还有很多厂商自己组建的MSA,25G、50G的Consortium的联盟,最终的影响是我们的客户例如BAT、需要更多的测试才能保证互联的可靠。怎么去解决这些问题呢?这也是我理解的ODCC的重要意义,聚合行业的力量,用开放的心态,做开放的技术,共同建设数据中心的行业生态,谢谢大家。

相关资讯

    暂无相关的资讯...

共有访客发表了评论 网友评论

验证码: 看不清楚?