中国电信北京研究院副总工程师、云计算与大数据事业部总监杨明川：运营商智能化数据中心

2017/8/23 10:13:20 来源：DTDATA 作者：分类：会议活动

今天非常荣幸有这个机会在ODCC分享一下我们在运营商智能化数据中心方面的一些探索，内容是依托我们在人工智能领域做的一些基础研究。

人工智能在这几年取得了非常多的突破性的进展，从AlphaGo开始，在游戏领域、视觉领域和医学领域等都取得了突破。数据中心正在成为支撑人工智能蓬勃发展的核心环节。电信运营商拥有大量的数据中心，我们现在也在开始考虑怎么样把逐渐我们原有的数据中心，尤其是面向云业务的数据中心，能够进一步演进到面向智能业务的数据中心。

从现在技术的发展趋势看，人工智能未来将是一系列技术的融合。在融合过程中，我们需要把云计算技术、大数据技术、5G技术、智能网络技术、网络安全技术、芯片技术以及区块链等技术整合起来，共同促进新一代数据中心的发展。随着整个产业向云化发展，我们即将迎来的是一个新的“智能+”的时代，以后各行各业我们面临的挑战都是怎么样把信息化的应用构建在我们智能化的基础设施之上。

基于这样的一些想法，我们也重新定义了技术体系。原来运营商的技术体系就是“云、管、端”，随着智能化的发展，我们在此基础上加了芯片，就是“云、管、端、芯”的体系。在云这一侧，构建容器化的PaaS平台，大数据平台和深度学习的框架以及面向区块链的服务；在“管道”这一侧，现在需要研究5G、物联网、SDN/NFV，在各个层面上进行统一整合；在“端”这一侧，随着智能化的引入，我们需要考虑边缘计算，需要考虑AR/VR；在芯片这一侧，除了我们以前数据中心单一的CPU的架构以外，我们会考虑GPU、FPGA等。具体来说，包括制定面向智能业务的定制化服务器模型和相应的评测体系；包括怎样引入人工智能技术来对我们的云管平台进行优化；在PaaS这一层，包括如何构建面向智能化业务的云服务，以及基于这些方面我们开展的一些智能化云应用。

在智能化的数据中心方面的探索，主要依托于北京研究院的中国电信云计算实验室，我们以这个实验室的一些研究为基础，开展了智能化数据中心技术体系的探索，包括从底层芯片的架构到加速用SDK，从人工智能计算框架到不同业务的AI算法。

首先介绍一下我们现在做的人工智能定制化服务器这方面的一些探索。服务器的定制化可分成两类，一类是浅度的定制，一类是深度定制：浅度定制主要是在产业界现有的各种GPU服务器产品中，挑选能满足运营商通用智能化业务并且性价比高的服务器，根据其共同的硬件配置特点形成规范要求；深度定制就是像ODCC的天蝎计划一样制订GPU服务器的硬件规范，由厂商按照规范生产服务器。现阶段我们还停留在浅度定制，主要是因为运营商的人工智能业务目前还在不断发展中，还比较分散，还没有形成需要数百颗GPU并行处理的大规模智能业务，所以硬件形态上不适宜过早固化。

定制化需要考虑芯片的发展，之前我们的数据中心都是以CPU为基础建设的，在智能的时代我们需要更加复杂的芯片组合，比如我们需要考虑CPU和GPU怎么能够形成一个有效的协同。在一些特定的业务场景，我们需要把CPU和FPGA结合起来在云端执行计算；而在边缘计算这一侧，我们更多的会把FPGA和5G结合。这样就形成了一个边缘计算和云计算相协同的智能化基础平台；再进一步是CPU+ASIC的架构和现在还在研究当中的“类脑”芯片，“类脑”芯片会是未来人工智能研发的一个很重要的方向。

智能化服务器的浅度定制需要考虑几个方面的问题：第一个是在GPU+CPU的混合架构中，我们要考虑GPU和CPU之间的配比，以及显存和内存的配比。这方面我们前期也做了一些探索，比如4：2或者8：2这种配比就比较合理；在网络侧，由于机器学习需要涉及到大量的数据交换以及反复的迭代，所以对网络的要求非常高，我们考虑对于需要多节点协同的HPC业务还是以IB网络为好。如果是小规模的业务，使用以太网的方式更为经济，但要求网卡需支持RoCE；还有就是密度的考虑，GPU卡的密度不应低于2U4，要同时考虑电信机房的供电、承重能力。深度定制多采用独立GPU机箱的方案，因为密度可以做到超高，又可使用级联GPU机箱进行扩展。深度定制对GPU拓扑的设计考虑的比较多，因为并行计算需要GPU之间有高速的互联通道，再就是GPU机箱与主机接口的设计问题。

第二个方面，我们来看下如何把AI的技术用于数据中心的运营优化中。我们现在正在做的一些研究和探索主要是利用AI技术去做数据中心的节能。这个优化既有有机房层面的，也有软件层面的，主要难点在于怎么用AI深度学习的方法来发现各种业务的负载特点。这里我们做了很多实际调研，发现不同规模的数据中心它们实际上都有很多节能的空间。

我们通过和一些合作伙伴合作，针对我们的数据中心通过深度学习的技术进行了一些节能的研究。我们发现数据中心中各个业务的负载不是说全天都是在峰值或者都是直线，它会随着不同的时间周期有上下的波动，我们设计了深度学习的算法可以去发现它的业务访问规律，然后通过我们云管中心的平台对不同业务使用的虚机资源进行统一调度，使相同业务负载特征的虚机集中到一起部署。这样在业务空闲时段通过降低物理机的功耗就达到节能的效果。我们在云计算实验室也做了一些前期的验证和测试，结果表明在我们现有的几种业务场景下，还是具有很高的节能效率。

除了在数据中心的能耗方面，我们也开发了一些应用，想通过这些应用来实际验证面向智能化的数据中心怎样才能更好的去支撑人工智能业务的开展。我们重点做了NLP领域的实践，重点做如下几个方面的探索，包括命名实体识别、事件的关联发现、知识图谱等，并在开发过程中使用了很多深度学习的算法。这是基于我们实验室开发的深度搜索系统，它可以从海量用户行为数据里基于NLP实现自动命名实体识别以及知识图谱的构建。我们还设计了大规模的图计算模型，通过这个模型去挖掘实体之间的关联关系。目前在我们的系统里大概构建了2000万个实体节点，以及超过10亿条关系的边，我们整个系统可以用于比如说医疗、教育等等这样的领域。在这个系统里我们也探索了很多基于人工智能的算法，包括序列分析、情感分析、命名实体识别以及卷积神经网络。

我们认为未来智能化的数据中心一定是按照AI芯片、AI的计算平台、AI辅助的的云管平台和AI应用的完整的垂直体系来构建的。所以我们也希望在后续研究过程中，能够进一步和各个合作伙伴进行更加多方的合作，能够共同去打造更好的面向智能化的数据中心。

我的发言到此结束，谢谢大家。

分享到新浪微博微信

上一篇：华为网络产品线系统测试高级工程师许可:高速以太接口的测试探讨

下一篇：ODCC 华为技术有限公司首席网络专家、资深技术专家王闯：无损网络