华为中国区网络能源总工张广河:数字新时代 智能新DC-数据中心的智能化演进

2017/12/22 11:06:10 来源:DTDATA 作者: 分类:会议活动

12月20-22日,第十二届中国IDC产业年度大典(IDCC2017)在北京国家会议中心隆重召开。本次大会由工业和信息化部通信发展司、中国信息通信研究院、云计算发展与政策论坛、数据中心联盟指导,中国 IDC 产业年度大典组委会主办,中国 IDC 圈、CloudBest承办,并受到多家媒体大力支持。


中国IDC产业年度大典作为国内云计算和数据中心领域规模最大、最具影响力的标志性盛会,华为中国区网络能源总工 张广河出席此次会议,并发表《数字新时代 智能新DC-数据中心的智能化演进》主题演讲。




演讲实录如下:


张广河:我先澄清一下我今天给大家汇报的范围,我的范围是数据中心的机房,就是一个狭义的数据中心的范围,为什么要汇报这个议题,因为我认为刚才微软、IBM、万国、华云的专家都讲了云计算、大数据的发展速度很快,但是支撑云计算、大数据的关键基础设施的脚步发展是赶不上云计算、大数据这个时代,所以说我们数据中心L1的设备急需要智能化的演进。


先看一下行业的机遇,现在行业发展到什么程度。在致辞的时候李书记讲了很多具体的数字,我这儿可以再说一下,因为这可能是属于L1的增长量。为了要讲这件事情,因为有很多人,现在行业里有很多专家逐渐觉得我们的数据中心建设得有点过热,但是我不这样认为,为什么?因为我们现在在座的恩有很多的专家,或者是行业的老总,有可能会受到负面因素的影响,我认为这个因素是不对的,为什么?因为习总书记有指示,国家大数据战略,这是政策的支持。第二,摩尔定律一直有效,它持续在翻倍,后面有刚性的需求。一个是政策的支持,一个是需求的拉动,双轮驱动,所以我们这个行业的前景非常的广泛,所以给大家吃一个定心丸。


但是在这里面我们有很多的痛点,是不是遇到这种情况?我建好数据中心,或者说我有一个非常好的伙伴说我有快速地上线,就要三个月,这事怎么办?我永远不知道明天会冒出来这么一个大的需求,还是后天冒出来这么大的需求,因为中国是互联网最热的区域,在全球来看,你永远想不到明天摩拜冒出来,还是后天滴滴冒出来,毛出来以后就有急遽的需求,这是业务上线。


大家经常听到这边着火了,那边宕机了,可靠性很重要。行业发展到现在,数据中心已经很多了,华为将近有百个数据中心,分布在全球,这个行业的发展速度超过了人才的储备速度,这时候运维又成为我们的痛点。靠人工管理吗?数量不够怎么办?素质不够怎么办?运维又是我们的痛点。


大家看今天北京的天很蓝,近期很长一段时间北京的天都很蓝,为什么?因为我们的能源要改革,所以说节能必然会成为政府推动非常强大的高压线,所以说节能只是说说,现在除了节钱物还有压力,当一个区域的能源使用到一个程度,可能就停止供应了,这时候节能成为一个非常强的驱动力,也是一个非常大的痛点。


基于这些痛点我们怎么思考?华为公司的团队构建了一个I立方,智能化电源、智能化制冷、智能化管理这三个I组成了I立方,保证它的可靠性运营。在这个架构下面,左边是数据中心的架构,右边是价值,左边的架构会产生右边的数字化、网络化、智能化的价值。当然模块化一直以来大家讲得比较多,模块化可以解决快速业务上线的痛点和标准化品质保障的痛点。数字化可以让我的数据中心所有的状态非常精确地被发现、被感知。网络化就是我有非常多的数据中心丰富在各个区域的时候,这时候我需要一张网把它给连起来,进行中心的管控。智能化就是通过大数据的分析,我长时间运营经验的积累,积累到一定程度以后,我要产生判断,这时候要指导人,我将来经营的方向往哪里走,这时候需要系统对我提出建议来。这是我们的架构、理念以及依托的价值。


当然我们用望远镜看我们的理想,看我们的未来,但是我们要用显微镜看我们的实现,一定要体察入微,保证我们具体的实现能支撑我们未来的理想和远大的前景。


下面我讲我们的三个I在解决方案上的实现,智能化持续的创新实践,给我们的客户带来的什么样的价值。这里只是讲一些例子。


第一iPower,大家知道电源是数据中心最危险的因素之一,有可能起火,所以我们有一个iPower的供电系统,从被动的事后处理,已经燃烧了,已经出现问题再去处理,变成主动预防,趋势甚至我有一种预测型的处理,这里就有三个方面:第一,早发现。早发现用什么来支撑?这就用数字化,我把所有的能量危险的部分,用数字化的传感器给提取出来,让我能看到。比如说能量危险的部件,要爆炸的电容,要燃烧的电池,要起火的开关,导致过热的风扇,这些部件都通过数字化的信号报上来,把它注入数字化的信息,这样我就可以提前发现,发现以后通过告警信号的分析和整理,实现精确的定位,为什么说早定位,因为在告警里,往往一个告警源可能触发一系列的告警,因为告警可能会有关联,这时候就需要我们智能化的系统对它进行去相关的分析,精确定位到我的故障源,尽早隔离,进行处理,保证我系统的可靠性运行。


除了数字化,iPower进行可靠性的加固,在其他基础设施方面我们也有其他的方面,比如说制冷方面,就是说我制冷的空调设备可能性能已经下降得很多,马上到了你的宕机的临界点,我还不知道,等到过热以后再去处理,这时候就会带来问题,所以我通过智能化提前预知它,比如说有泄露了,它泄露到80%的时候我就知道这个泄露很危险,我要做及时的处理,这时候我有一个处理问题的个解决方案,这就是智能化带来的可靠性的加固,因为可靠性有基本的可靠性,我把它叫加固的可靠性,由智能化带来加固的可靠性。


下面再讲另外一个创新。在数据中心领域创新花样最多的就在于制冷和节能,但是我们看看在前些年,我们(英文),中国在西南、内蒙古、宁夏,这些自然能源比较丰富的区域,大家布置了很多的数据中心,但是有一个问题,这种自然的冷源和低廉的电价是可遇不可求的及因为我们绕不过去一个坎,就是我靠近客户的这种最强烈的需求,就是说北上广深一线城市,刚才万国的专家讲,他们的节点就在北上深成,靠近客户是非常高兴的需求,这是绕不过去的,自然冷源可遇不可求,在北上广深这些地方没有自然冷源,这时候我们该怎么办,制冷没了,我们就要从制冷变成智冷。第一个制冷是制造冷,第二是,智能的控制冷源。


大家知道现在国内很多数据中心的制冷控制都是有BAM这些系统来控制它在里面的算法经常是恒定不变的,或者过了一段时间由我们的运维人员进行临时的调优,但是它一直都是一种半固定式的算法,固定在当中的。但是我们应用的环境是千差万别,能调优的专家也是可遇不可求,能号脉的老中医总是非常稀缺的资源,这时候需要我们的智能系统对我们的气流管理、液体流管理、冷源的管理,对室内、室外,以及跟IT之间产生一种互动,产生化学反应,然后进一步产生节能。


我们有一个实践,大家可以看一下,在廊坊的企业数据中心,我们由于采用了iCooling的智能算法,在我们进行手动调优以后,又进一步下降了节能了100%以上,这个数据是非常吓人的,为什么?因为我们对于数据中心而言,节省下来的钱是纯利润,这会让您的企业财务状况得到极大的优化,我们已经实现了。讲故事的人很多,但是实践必须得有人先去实践,华为公司也讲概念、理念,但是我们更注重践行这些理念,在我们自己企业的数据中心践行这些理念,在我的客户当中也采用了这些最先进的控制理念,iCooling,能够带来实实在在的收益。


还有一点,华为公司除了能做机电的这部分,我这个业务是比较小的业务,更大的业务是我们的IT,跟微软还有战略合作,我们懂IT,数据中心里有一个指标叫PUE,PUE永远是大于1的,1.X,我们所有的采用的可能是降了后面的X,但是我们可能会在讲PUE,漏掉E,就是我们服务器和IT的能耗,我们有一个2012实验室,我们进行深度的研究,我们发现你在服务器处理业务压强比较低的时候可以把频率调下来,而频率调下来以后功率会下来,这样我就可以实现我的IT负载,跟我的能源设备之间的互动,这样更进一步,在PUE里面除了降PUE后面的X,还降前面的1,这些直接反映在我们的财务报表里。


最后讲一下我们数据中心的智能的大脑。以前一直有有人和无人之争,我觉得现在可以把这个搁置下来,因为人工智能都已经来了,不可能我们的数据机房还靠卖人的方式来经营和运作,所以我们未来发展的趋势必然是人工智能逐步地代替很多的人类重复的工作。首先就是替代人,第二个层面是指导人,第三个层面就是超越人。这三方面我们都做了一些实践。


替代人:其实我在刚开始也讲了,我们在发现问题,或者是巡检的过程当中靠人去,人的感知就是眼、耳、口、鼻、身,它感知不了红外发热的东西,但是我的数字传感器可以发现,它不但替代它,还超越它,发现了更多。当然现在嗅觉替代不了,但是触觉可以替代。这是我们在替代人方面的实践。


指导人:什么叫指导人?今年有一个故事,数据中心宕机了,宕机的原因是巡检人员有一个巡检任务,说要巡检某个设备,它有工作单,他自己签了字没有去,所以说你是不可控制的,人总是有不可控的,但是对于指导人的系统而言,我对我的数据中心有一个全盘的规划,对我的巡检路径有一个明确的指导,我在每一个点上有电子大卡、拍照上传,确保我巡检人员被我的系统所管理,是可控的。


超越人:这里面主要讲一下资产管理,华为公司如果有一千台机柜的资产盘点的话,我们可能要盘点十几天,要很多人盘点十几天,而且资产盘点有个问题,因为IT的资产总是动态的,会变化,会变更,会替代,你可能前天盘点完到底哪个时间点作为你资产管理的一个时间呢?这时候我们管理系统提供了这种功能,它可以一键式对我的所有资产进行盘点,在库的,在运行的,或者是马上过保的,可以一目了然帮助我们经营。


当然我们在智能化的过程当中遇到一个最大的问题就是安全问题,刚才李书记也讲,可能会受到外来的威胁,当然有几个案例,这个案例没有时间展开了,但是就是说对智能系统进行加强的控制,加强的管理。


最后我们实践的成果。所有的这些细节加起来,就是我们实现了PUE下降,人均运维从每个人维护140个到210个,投资回收期下降到4.5年,SpUE就是空间利用率节省了10%,预测试和预配置建设时间下降了50%,就是快速上线,能让我们的业务快速进入状态。


我今天的分享到这儿,这些只是我们初步的围歼,未来我们会走得很远,华为公司会持续地投下去,带来产业的升级。谢谢大家!

相关资讯

    暂无相关的资讯...

共有访客发表了评论 网友评论

验证码: 看不清楚?