机器与人如何协作?分享腾讯数据中心自动化运维的探索实践之路

2019/6/27 10:24:05 人评论 次浏览 来源:DTDATA 作者:Mei 分类:特别报道

当前,物联网(IoT)、人工智能(AI)和机器学习正在走向一个不可阻挡的旅程,它们正在改变人们生活的每一个方面,但是只有通过数据中心收集和处理所有信息,人们将会继续从中受益。


充分利用大数据和 AI 技术,构建智能化运维管控模型,自动识别业务问题,简化运维操作复杂度,持续改善数据中心运行管理状况,成为今后数据中心管理的重要课题。如何利用这些新技术在数据中心管理中精准智能告警、智能异常检测、智能趋势预测是大家关注的趋势。


这样的新闻报道你可能看过:


上海银行数据中心迎来智能机器“巡检员”

数据中心将采用机器人监控机柜中的热点

京东金融发布京东智能巡检机器人

沉浸式混合现实(MR,即Mix Reality)运维通信系统正式投入生产环境运行

……


机器人时代要来了吗?数据中心运维管理中是否可以实现以更少的人员投入,同时保障更高效的运营管理水平? 如何控制风险?“人与机器”是对立,还是合作?机器人和人类是否可以合作管理基础设施?


6月25日,第十届DCD中国数据中心国际峰会上海站在上海中心大厦举行,在这个专题讨论中,主办方邀请到了腾讯数据中心研发总监岳上、业内专家肖建一、阿里巴巴基础设施一体化架构师汪刚博士、万国数据高级副总裁梁艳作为专家小组就以上话题进行了讨论。

专家小组专场讨论


数据中心智能化是一个趋势,很明显,这些技术促使了数据中心智能运维管理不断的演进。肖建一指出,数据中心运维管理的演进可分为三个阶段。阶段一,需要大量的运维人员,运维质量完全依赖个人经验能力及稳定性;阶段二,建立了驱动人工的机制及系统工具,依靠标准和流程将经验知识固化,并定量分析人力资源分配;阶段三,开始建设自动化智能运维,将重复性运维事务转由自动化系统负责,分析性事务转由AI介入协助,一定程度上大幅度降低了人力资源投入。


专家小组一致认为,数据中心智能运维自动化、智能化成功的基础是数据化,但数据要合理、有效、准确、可靠、安全,这些是前提。机器人起到作用时,则需要人工大量建模。


很多数据中心智能运维管理的应用场景是以事件为核心的全闭环运维问题处理模型。我们要思考的是:数据如何采集?效率如何?准确性如何?数据可以帮助实现什么目标?数据的价值在哪里?AI是一种手段,怎么用?AI解决的是什么问题?人机结合的目标是什么?


腾讯数据中心研发总监岳上表示,腾讯研发了一个数据中心管理软件平台——腾讯智维,它管理了腾讯内部约80个数据中心,超过百万台服务器设备。


在采集效率上,腾讯已经在研发新的数据和视频采集协议。通过新协议,可以打造更高效的监控网络,既更细致的了解数据中心现场运行情况,同时做到更低的网络负载。


在保证数据的准确性上,针对这些数据,腾讯从五方面入手:


① 测点侧,监控MDC测点接入率;

② 网络侧,通过技术手段,一旦网络出现问题,我们可以自动识别问题并判断根本原因,进而自动切换或者人工干预;

③ 视频侧,实时检查视频参数、视频格式和码率,发现问题及时告警;

④ 服务器侧,一旦服务器进风温度异常,及时告警;

⑤ 异常数值,对数值做了合理区间设定,系统算出异常值会预警开发者。


数据可靠性的提高,确实给现场运营带来许多新的改变,如CMDB自动发现设备——腾讯数据中心的所有设备上面都带有测点,可以通过测点的上报,来感知整个网络里的设备运行情况,从而发现新增/删除或者维修的设备,通过人简单核对就可以入库。如数据中心运营水平量化考核——从大量数据中,归纳计算出反应现场运营效率的数十个一级指标,上百个二三级指标,作为对现场进行考核的KPI指标,指导运维团队提升现场运营效率。


腾讯智维是腾讯近20年数据中心运营经验与云化技术相结合成果,利用腾讯数据中心先进的管理运维经验,腾讯强大的技术研发实力,安全保障能力,帮助客户持续提升数据中心运营的质量与效率,降低成本投入,将数据中心的价值极大化。



腾讯数据中心研发总监岳上

笔者也看到,这一年来,智维也在多方面进行着进化,包括有很多AI方面的探索。


岳上表示,未来数据中心会向无人值守进化,人机协同是一个过程,机器人做一些基础重复的工作会比人做的好,但AI不光是机器人,它更需要一个大脑。


比如腾讯觅踪,就是借助AI技术,结合腾讯内部数十年的数据中心运营经验,通过自研的高性能视频分发服务、智能跟踪服务、针对数据中心场景特别优化的H5图形渲染引擎等三大核心技术,依托云的池化、弹性等特性,在较低的成本下,实现了数据中心人员身份的精准鉴别,包括关键区域人员入侵检测、异常行为识别、人员随工监测等功能,并能够对可疑人员的活动轨迹实时跟踪定位、追溯和告警,从而满足园区人员全方位监控的细化需求。


腾讯觅踪就像是个能力强大、高度负责的机器安检员,7×24小时不眠不休的盯着园区上千个摄像头的实时画面,一旦发现异常便会立即告警。这个机器安检员还可以通过多个摄像头,实时追踪定位可疑人员,把对物的监控进一步扩展到对人的管控。


据悉,腾讯觅踪不仅可以应用在数据中心,还可以为很多大型功能园区,如工厂、医院、校园等提供视频安防解决方案。目前,它依托于腾讯智维平台,为客户提供服务。未来,腾讯觅踪也将作为独立产品向行业推出。




上一篇:超融合数据中心助力造纸企业“云”建设

下一篇:没有了

相关资讯

  • 关于组织开展2019年绿色数据中心先进适用技术产品征集和更新工作的通知

    为加快绿色数据中心先进适用技术产品推广应用,推动数据中心节能与绿色发展水平持续提升,按照《关于加强绿色数据中心建设的指导意见》(工信部联节〔2019〕24号)要求,工业和信息化部决定开展2019年绿色数据中心先进适用技术产品征集和更新工作。

    2019/3/13 20:03:41
  • 鼎向上海紫竹数据中心正式开业,助力数字经济发展

    2019年1月11日下午 ,鼎向上海紫竹数据中心在上海紫竹园区万怡酒店举行隆重的开业仪式,紫竹高新区常务副总裁夏光先生、新加坡驻上海总领事馆总领事罗德伟(Loh Tuck Wai)先生、新加坡公司团队与中国公司团队、紫竹园区代表以及业内特邀嘉宾出席了开业庆典活动。

    2019/1/14 11:42:17
  • 北京延庆能源互联网绿色云计算中心项目正式启动

    1月8日,拟投资70亿的 “北京延庆能源互联网绿色云计算中心” 项目正式在中关村延庆园启动。该项目是2017年国家能源局批复的“北京延庆能源互联网综合示范区” 项目“源、网、荷”的核心板块之一,按照能源高效利用可持续发展理念,为响应日益增长的IT需求,建设更绿色、更高效…

    2019/1/10 23:03:40
  • TGG全球首个空调产品PUE能效因子测试环境通过认证

    11月22日,维谛技术有限公司(Vertiv)位于南山智园B2的空调测试实验室通过TGG(中国)认证,成为全球首个“空调产品PUE能效因子测试环境”。

    2018/11/22 20:28:54