加入收藏 | 设为首页 | 会员中心 | 我要投稿 辽源站长网 (https://www.0437zz.com/)- 云专线、云连接、智能数据、边缘计算、数据安全!
当前位置: 首页 > 运营中心 > 产品 > 正文

【IDCC2020】广东浩云长盛网络股份有限公司全国运维总经理朱红兵:数据中心全生命周期运营管理

发布时间:2020-12-13 14:05:27 所属栏目:产品 来源:网络整理
导读:2020年12月8日-10日,第十五届中国IDC产业年度大典在北京国家会议中心正式召开。作为数据中心云计算产业内知名的盛会以及IDC企业、电信运营商、互联网、金融、政府和厂商等产业上下游的高效沟通平台,与会嘉宾包括政府领导,行业专家和企业代表数千人。以

第二点,数字化运营平台的实践。因为我们知道单个数据中心的测点是非常多的,来源于视频、门禁、消防、安防,基础设施的数据一个2000个机柜的测点大概50万个,每天都会产生巨量的数据,这些数据怎么为我们所用,怎么提升我们的管理效率是我们要思考的。

我们引入了自己的数字化管理系统,实现业务的全面数字化转型,原来靠现场的巡检、排班的方式,现在全部系统化,我们的系统分成六个模块,包括人员组织、资产管理、运行管理、设备维护、协调管理、培训,等等六个模块。通过运营管理平台的实现,我们将国标、企业规范通过运营管理平台进行固化,持续保证数据中心运营的可持续规范性。

另外,我们还在运营平台上抓取数据,利用数字孪生技术来充分发挥数字化的价值。这是我们自己的一个案例或者缩影,可能很多数据中心运营方会有一个痛点,你所负责或者运营的数据中心涉及多地,或者多个,比如在上海和北京有多地多个数据中心,你迫切的想知道这个数据中心的运营状况好不好?是不是安全的?你依靠现场的数据是没办法做判断的。第二,你想知道这些数据中心哪个是最好的,哪些做的最差。我们通过建立业务管理模型,通过应用管理系统实现这样的管理功能。

我们的安全指数,首先有自己的计算逻辑,通过调取运营管理平台的数据,当然里面包含了BA,现场弱点系统数据,最终进行可视化的呈现,比如广州1号的运营状况,现在得出分数是98.2。这个是前期比较早的逻辑计算,现在每个季度会做定期的更新,影响数据中心安全的很多因素,包括告警、人员资质,你日常的巡检维护完成情况,变更、设备可靠性,文化的隐患处理和事件处理很多因素,这是一个相对主观的东西,各个业主单位也可以根据自己的需求,根据自己的管理特点自己定义这些东西,我们通过定义之后抓取BA、运营管理平台的数据做逻辑计算,最终得出广州1号的安全指数的可视化效果。

第三点,数据中心运营的解决之道第三点要运营的白盒化,这个概念是最早在IT领域的,有白盒子和黑盒子,黑盒子就是封闭的不可见系统,白盒子是透明的系统。我们数据中心希望建立成一个低成本,灵活自由,开放、开源的可定制生态系统。我们当时希望做这样的系统,有效的控制运营成本,提高运营质量。具体实现有三个方面,第一维度实现人员的白盒化。很多第三方有一个痛点就是人员的招聘、考核、竞争面临比较大的痛点。我们做设施的白盒化,第三做事件和服务的白盒化。比如我们做设施维保的白盒化,比如某场中9395的UPS正常大部分的运营方怎么买维保,第一谈一个全包的价格,含了设备巡检、零配件维修,谈完就签了。另外谈一个清包的维保,硬件维修按实际结算。我们会分析设备性能,不同品牌,不同型号需要厂家的维保服务是不一样的。年限比较近,设备本身现场运营的环境状况比较好的UPS需要维保的深度不需要那么深,签一个相对浅的维保,含年度的违建,含告警测试和除尘、除尘,但是对于超过五年的,我们单独做直流纹波的检测,通过这些检测更符合实际的维保需求,不同的UPS,我们购买的维保是透明化的细化的维保方式,这样有两个好处,第一个好处是大幅提高了现场运维人员的技能。因为你对设计的维保要求高了,对于厂家的依赖度低了,对现场人员的维护水平要求高。第二个,有效的控制成本,让我们花的每一份成本都相对来说合理。

第二,怎么通过运营平台实现白盒化,讲一下人员如何通过运营管理平台实现人员的晋升、考核的白盒化。刚才提到过数据中心人员是一个典型的人员密集型的行业,我们现在规模不是特别大,运维人员已经一两百人了,这么多人对应的人员绩效、竞争、定级是很复杂的事情,如果只是几个人的团队聊聊就完了,一两百个人的团队如果按照原来的考评带来的结果就是不公平,不透明,不公开,很多员工不满意。我们现在通过人员白盒化之后,我们浩云长盛网络股份有限公司所有的现场一线运维人员的绩效考核和晋升完全不用依赖我,什么时候可以晋升,什么时候能晋升,绩效怎么样完全是由自己定的,而且所有人都可以看得到。

这是我们的广州1号的运营数据,每一个人每一个月都会有一个星级积分,这个会直接影响他当月的绩效,这个月的绩效如果排名在前30%会得到很好的绩效,后30%会有一个惩罚。第一个会直接兑现当月的绩效,最主要的作用我们会看季度的积分,第四季度的积分是累加10、11、12三个月的分数,这个分数排名前50%的人是可以自动晋升一个星级,原来0星级的会变成1星级的。对应每一个星级有一个星级补贴的,从1星到5星,满5星之后自动晋升一个职级,对应下一个职级的工资,完全系统化,所有的分数所有的员工都可以看得到。

季度分根据机房的专业主管或者运营经理根据他例行开展的维护和维保,有60分的基础分,如果不是缺勤或者考勤的问题,基础分差异比较小,他还有其它的应急演练,比如这个同事根据现场的维护实际状况增加了一个演练场景,而且这个演练场景经过我们的专家主管评审之后,这个演练场景是符合需要的,这个演练场景就有演练分数。另外这个同事在11月份自己开发了一门课程,组织了这个数据中心的全员培训,系统会记录积分。还有事件处理,他主动发现问题,主动维修,他也提供了合理化的建议。一个季度累积一个季度的分数,跟绩效或者跟星级,跟职级也好,全部自动化了。我们的机房主管人员或者机房经理原来很想做评优评先,现在完全把这部分的时间大量升出来,专门做提高数据中心可用性的更重要的事情。通过白盒化之后很透明,而且通过这个方式之后,整个浩云长盛网络股份有限公司员工的流失率非常低,而且人员积极性充分调动起来了,原来很多员工不知道什么时候晋升,不知道未来培养的方向,现在稳定性的问题解决了,他的潜能和在数据中心工作的能动性大幅度提高了。

这是我们白盒的作用。

第四,我们推行的是运维审计。你避免嘲笑的方式就是自嘲,我们是避免别人审计你出问题,或者避免发生重大事故时候的你没有应对措施,就是提前自己审计。第一个运作审计,第二个做履行审计。运作审计比如说对应的工作量,比如清晰冷却塔,会有一个参考工时,根据不同的型号会有一个参考工时,我们会审计这个工时是否合理,如果你远远超过了审计的参考工时肯定有问题,你效率很低。如果你清晰冷却塔正常1.5小时,你30分钟做完了也是有问题了,无非是你的质量大幅度下降了。第二部分是审计你的执行情况,现在很多地方不是没有标准,是有标准有规范,实际上没有执行,很多地方自己写的规范写得特别好,就是没有执行,我们是审计这个履行情况。因为我们自己第一个有国标,有定制化客户SLA的特殊要求,也有自己的企业规范,我们的审计标准就是审计他的执行情况。

(编辑:辽源站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读