ODCC项目经理、腾讯服务器平台中心系统工程师 曾梓恩:我在腾讯服务器实验室

2017/8/22 17:30:55 来源:DTDATA 作者: 分类:会议活动

曾梓恩:大家下午好,到了一个爱犯困的时候,大家情绪有点低落。


今天主题是我在腾讯服务器实验室。之前李博给我布置任务的时候,我想我要讲什么?我做了三年多的服务器实验室的事情,不如拿出来跟大家分享一下。


这是向业界第一次披露腾讯服务实验室的一些细节。

 


我从业时间不是太长,在行业里不太具有知名度,趁着这个机会推销下自己,我叫曾梓恩,英文名Vizta Zeng,来自深圳的腾讯科技有限公司,我们公司的股票代号是00700。大家在微信上输00700点HK,激活小程序就能看到股价走势。我的岗位是腾讯技术组的系统工程师。


我在腾讯实验室,腾讯服务器实验室最早成立于2005年,比我进公司的年头还早8年左右。2017年得到了领导特批,进行了扩建,现在的规模已经达到30多个机架,占地在IT实验室里是比较大的。我们有多种测试环境,除了厂商的基础测试之外还多了很多内容。比如针对现在发展迅速的云技术和质量认证的一些其环境我们都具备了。因为腾讯的服务器研发资源都集中在咱们部门里面,所以每个月大概有50多单任务,都是不同团队的同事来我们实验室进行参观、实地测试。


我今天的演讲就到这里,因为我把“我和腾讯实验室”都讲完了,但是李博不让我下去。好吧,其实接下来才是重点。


今天分享的关于腾讯服务器实验室最关键的三个要点是建设、管理运营、成就。


一个实验室,可能大家觉得,只是往里面放设备,或者每天待在里面是很无趣的。但实验室背后有很多故事,甚至有一些离我们岗位最近的运维同事都不是很清楚实验室里发生的事情。我今天和大家分享一下。


首先讲一下建设,实验室建设是我在入司之前就开始了,我今天讲的重点是实验室的扩建。今年要响应公司的发展战略,对云计算这个行业进行大力支持,所以我们服务器硬件部门作为云计算里最基础也是被提要求最多的部门,我们配合云部门,规划一个新的专区进行实验室的扩建。


在实验室的扩建过程中,我跟领导讨论。这个实验室咱们要用来干嘛?我们已经有了实验室为什么还需要扩建?经过讨论,我们总结出实验室的主要用途。


一个是基准测试,简单来说每种服务器进来腾讯自己团队先摸个底,再投产。二是质量保障。最近,我们作为终端用户,在早期参与到英特尔新发布的平台硬件研发当中。这个大项目种,我们对质量保障方面的项目引进到实验室来了。以上两个功能在现有实验室已经满足的情况下,我们扩建实验室的目的实际上就是为了满足现在飞速发展的各种服务器和云平台技术的认证。实验室里能验证的云技术处于硬件和最终交付用户的服务之间的一层,这一层包括所有刚才上台同事讲到的新兴技术。技术发展前期,在实际业务还没有代码能够真正跑在硬件的情况下,我们把这个新技术放到实验室里是最合适的。由于欠缺这方面的资源,所以我们建设这么一个实验室。搞清楚我们这个实验室要干嘛之后,后面就好办了。


经过整一个项目下来,总结了这三点,实验室怎么建,有三个原则。


一个是真,它必须跟现网环境是非常真实的,我们经常会出现在实验室验证完了之后上线不通过的事情,这种事情在接近百万台量级的服务器的数据中心里面是不可接受的,一天如果能交1万台服务器,交到全国数据中心,出现一半以上不能自动化部署,这时候需要5千个人力同时进行服务器的安装,这是大规模运营中不可接受的运营事故。所以真实的实验室环境是对现网运营高要求的非常好保障手段。但是,实验室毕竟是个研发机构,我们不可能把半个数据中心的东西都搬到实验室里来,咱们投入的资源必须精打细算的,所以在保证真实的环境情况下我们必须要非常好的控制整个实验室的成本。比如:业务是不是可以在12台机器的集群中,可以通过代码的优化和一些抽象手段,把它集中到3台机器上面去跑?整个POC的过程就可以减少对资源的依赖,使实验室更好的运转。


最后是全,全好像跟简有一个矛盾,但实际上并不是这样,我们说的全是因为现在各大IT设备厂家提供的各种技术种类繁多,我们必须要把所有东西都拿到实验室来认证,才能对行业有比较好的了解,如果不全的话,实验室作为技术的前瞻预研机构,就会失去了领先性。


关于建设就说这么多,也许在座各位没有什么机会参与到实验室建设当中,我们就简单分享一下。但是,接下来的管理运营章节是对中小企业比较有价值的东西。


我为什么这么说?因为管理一个实验室就是在,管人,管物,管事,这三个管好了就能把一个很简单的IDC管起来。管物,测试物料的管理和测试资源,我们不仅要知道它在哪儿,我们还要知道谁在用;管人,我们现场会有大概十个个左右的供应商外包人员供我们调遣,这些人是怎么管起来;管事,因为事情每一个月有50单的测试任务过来,怎么样跟踪到项目,这也是一个很考究的事情。管这三个我们用了一套系统,这套系统开发者就在隔壁服务器分会场,我们腾讯的服务器管理平台组长王镇。他的演讲关于现网海量运营系统的开发经验。我们实际工作中发现,现网海量运营的经验套用到实验室来是绰绰有余的。


线上的资产管理系统,测试肯定跟IDC不一样。测试环境变更频繁,因为实验室里面,经常出现“今天要攒一个双CPU的机器,明天要来5个硬盘的服务器”这种情况,备件会拆得比较散,我们按照一个出入库的方式去管理服务器测试资源,落实到借测人,配合IDC严控。工单系统我们采用线上化的方式通知到外包人员,外包人员会经常更换。我们在实验室里面会有个统一的规范培训和通知到外包人员进行操作,不会存在换了一个人之后就不知道怎么操作的情况。测试平台是一个我们正在做的项目,为了解决把自动化的测试用例集合到测试平台里的问题。整个服务器实验室都是联网的系统,往时跑一个基础测试的话是操作人员登录机器去敲命令。如果有测试平台的话就可以远程进行工具下发并且进行数据回收,自动化完成下来可以用少量的人力来完成这个事情。


最后说一下,腾讯实验室有什么成就。很惭愧,我们只做了一点微小的工作。在质量保障方面我们有一个工厂预测试的环节,所有服务器在服务器厂家出厂之前必须跑上腾讯的工厂预测试的程序,这个程序在我们实验室里面完成整个开发验证,保证在服务器厂家那端可以顺利的跑通。最近新平台的整机质量认证,我们在实验室部署了三个机柜的新平台机器进行长期压力测试,此外还有一些自研服务器设备也会在实验室里完成测试认证。关于技术孵化的成就,除了高性能虚拟化网卡应用之外,还有液冷服务器,新型存储介质应用等领先与业界的项目在实验室完成了POC。已经商用的案例,包括25G以太云主机、云存储池化、海量数据迁移装置等等。


按照去年我演讲的套路,要开始升华主题了。今年也来做一次升华,我在腾讯的硬件实验室,我并不是一个蹲机房的人,我是一个云架构师。这两个事情是非常相似的,从底层数据中心到硬件设备再到上面的计算资源、网络资源、存储资源,实验室和线网是没有什么区别的,最关键是服务。我们卖设备的同事最终的目标是要卖服务,因为边际成本低,利润率高。咱们实验室也是这个意思,在有限的计算网络存储资源里面我们要创造更多的服务,这就是实验室最大的价值。


什么实验室云服务?除了有腾讯云的同事来参加的实验室技术Workshop之外,还有技术文章连载等等服务。我们定期会推出腾讯实验室内部期刊,会对新型的设备和技术进行内部的宣传,作为服务器技术的入口。我们团队通过这个很好的平台对内部进行技术推广和落地。还有一项增值服务,因为深圳天气比较热,同事们比较喜欢到有空调机房里面待着。


从实验室建设开始,我想我的前辈们可能也没有想到,实验室能从这么一个房间,买一堆设备放进去,到今天2017年我们可以出方案,我们可以和云平台做生意,最后实现了我们的梦想。我想每一个岗位上的同事多少都会经历从基础做起到实现梦想这样的心路历程,而这就是我在实验室最大的感悟。


愿各位的梦想都能成真,谢谢。

相关资讯

    暂无相关的资讯...

共有访客发表了评论 网友评论

验证码: 看不清楚?