加入收藏 | 设为首页 | 会员中心 | 我要投稿 辽源站长网 (https://www.0437zz.com/)- 云专线、云连接、智能数据、边缘计算、数据安全!
当前位置: 首页 > 运营中心 > 产品 > 正文

【IDCC2020】广东浩云长盛网络股份有限公司全国运维总经理朱红兵:数据中心全生命周期运营管理

发布时间:2020-12-13 14:05:27 所属栏目:产品 来源:网络整理
导读:2020年12月8日-10日,第十五届中国IDC产业年度大典在北京国家会议中心正式召开。作为数据中心云计算产业内知名的盛会以及IDC企业、电信运营商、互联网、金融、政府和厂商等产业上下游的高效沟通平台,与会嘉宾包括政府领导,行业专家和企业代表数千人。以
副标题[/!--empirenews.page--]

2020年12月8日-10日,第十五届中国IDC产业年度大典在北京国家会议中心正式召开。作为数据中心云计算产业内知名的盛会以及IDC企业、电信运营­­商、互联网、金融、政府和厂商等产业上下游的高效沟通平台,与会嘉宾包括政府领导,行业专家和企业代表数千人。以“数据中心新技术与应用”为主题的分论坛于10日举行,广东浩云长盛网络股份有限公司全国运维总经理朱红兵发表了《数据中心全生命周期运营管理》主题演讲。

朱红兵

尊敬的各位领导,专家,大家上午好,我是朱红兵,来自浩云长盛网络股份有限公司,我从事数据中心运营管理有十几年,先后在电信运营商、互联网公司和第三方的运营商负责运营管理工作。今天以我自己的经验和心得分享一下数据中心运营的心得和经验。

第一部分,数据中心的运营特点和痛点,大部分时间聚焦在数据中心的解决之道,最后会有一个小的回顾和展望。

首先看一下数据中心的运营责任,作为数据中心的运营方肯定有很多KPI和压力,包括成本管理、人员培养、团队管理、SLA的达成。但是数据中心的最重要责任就是数据中心的可靠性或者可用性,因为数据中心的运营工作是为数据中心结果负责的角色。我是把数据中心的可靠性定义为永不妥协的指标,是作为我们的首要责任。

我们再看一下数据中心运营的痛点,第一个痛点就是宕机的风险,事故的种类大概有三大类,第一类是设备类的,包括UPS、发电机、空调,因为我们的设备跟生物体一样也有生命周期,设备本身也有磨合期、稳定期、衰退期,设备天然的性能落后这是一个大的原因。第二个原因是人为的原因,第三个是自然灾害环境的原因。设备的故障通过有效的预防性维护手段进行降低。人为故障或者自然灾害通常没办法彻底消除,所以我们数据中心的故障或者宕机的风险在某种情况下时可控的,但是没办法消除。宕机的成本又是往往非常高,我们看一下北美的数据,单次宕机造成的成本接近100万美元。当然这个数据我们可以拿过来参考,作为我们第三方数据中心运营商来讲,两类公司,第一类已经上市的数据中心运营商,这样的宕机事故对公司的股价会带来波动,对于我们这样新兴的数据中心运营商会大幅影响融资和公司的估值,这个是最大的痛点。

数据中心运营的第二个痛点就是运营的复杂性,第一个方面因为我们需要遵行或者依照的标准要求、规范特别多,包括我们有国标、UPITIME的规范。第二大类原因是可以看现场的运维管理工作,除了现场的巡检、设备维护,做故障处理和隐患消除,做这些工作的时候还要保证SLA的刚性达成,还需要保证时效和系统可用性。第三个主要在于三个密集型,数据中心运营工作密集型:

第一,人员密集型,这个比较容易理解,举个例子,一个具有20个人的设计团队作为第三方数据中心运营商,它在国内应该是TOP10了。一个具有20个设计团队的第三方运营公司在国内可能接近TOP10了,但是一个具有20个人运营团队的公司只是刚刚起步,常规的中等数据中心人员需要20人,人员非常复杂。我之前所在的一家公司是国内的上市公司,整个公司接近500人,运维团队我负责的管理人员接近400人,超过了它70%的人员,这么多人员的管理难度是非常大的。

第二个,资本密集型。因为数据中心是重资产行业,我们2000个机架的数据中心,大概基础设施投资2个亿左右,如果含上服务器的资产和网络传输设备的资产,这样的数据中心里面的资产规模超过10个亿,接近15亿。这么贵重的资产在一栋楼里面带来的基础设施运维的,信息安全的,审计的苛刻要求。

第三设计密集型,数据中心主要涉及电器、暖通、消防、路电,但还包括计算机、网络、传输,需要很多复合型的专业理论支撑。这么多的要求导致专业性要求非常高。我们综合来看三个方面大的原因导致了运营的复杂性是非常高的。这是运营的第二个痛点。

针对数据中心运营的痛点或者特点,我们该怎么做?浩云长盛网络股份有限公司结合自己的经验和心得,我们有四个方面的解决之道。

数据中心的运维体系整体的接受度非常高,因为现在都或多或少逐步建立和完善自己的运维体系,但是容易出问题的是容易缺头,缺前面的这部分。缺尾是后面那部分。很多数据中心在中间的运营过程当中它的SOP、EOP、应急预案、应急演练都比较完善。但是有没有参与前期的数据中心选址,有没有前期阶段把自己的要求融入到设计规划里面去?在工程建造的时候有没有查验?有没有跟进工程质量?在验证测试过程中有没有主导验证测试?第二个容易缺的尾巴,因为我们数据中心正常的生命周期大概是8到10年,但是我设备的生命周期没有这么长,像蓄电池正常的生命周期就是6年左右,包括冷气塔、精密空调、风柜,它的周期5到8年的时候需要大修,需要优化、改造,这部分的运维体系很多第三方同行是容易缺的。

第二个容易缺的地方是很多同行做这个事情的时候,它的运维体系有,但是很多年没有迭代。我们经常跟友商交流,看它的运维体系整体的非常好,放在文件夹里面,一翻2017年制作的,到现在三年了没有任何变化,但是三年的时间周期,数据中心的人员已经发生很大变化,数据中心的设备负载率发生很大变化,数据中心的设备性能也发生很大变化,但是它的运维体系一直没有优化迭代,还是那样的状况,没有与时俱进,这样就导致很多问题。我们有一个华南的数据中心在今年疫情过程当中,1月23号广东省已经发生了应急预案,但是这个公司到3月份也没有做预案,政府把这个数据中心所有的人员强制隔离了,他们没办法找了省内休假还可以回到广东的员工,加上托管的人员,几乎等于裸奔。1月份已经发布了严格的公共卫生预案响应,企业没有迭代自己的体系,还按照原来的方式运行就容易出现问题。

对于我们新兴的业主单位,或者刚刚进入这个领域不久的第三方运营商,个人建议可以参照一下MO的运维管理体系,优化和迭代企业的运维标准。

泰尔把数据中心的认证分为T1到T4,标准核心要素有两个,第一个它的拓扑结构,第二个是做它的运维管理能力。拓扑结构是现在主流的数据中心已经接受度非常高了,基本都是按照机房或者T3+的标准建设,这一部分在拓扑结构国内的差异不是特别大,基本都能满足这样的要求。影响一个数据中心的可用性,它的永续能力主要看它的运营管理能力,运营管理能力很弱,你的数据中心也未必达到T3+的标准。

简单小结一下:一个优秀的运维体系,一个优秀的运维管理体系,它一定有两个特征,第一个覆盖全生命周期,第二个它的运维体系一定是不断地优化、迭代,不断地完善的体系。

这是我们全生命周期运营解决之道的第一点。

(编辑:辽源站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读