【IDCC2020】广东浩云长盛网络股份有限公司全国运维总经理朱红兵：数据中心全生命周期运营管理

发布时间：2020-12-13 14:05:27 所属栏目：产品来源：网络整理

导读：2020年12月8日-10日，第十五届中国IDC产业年度大典在北京国家会议中心正式召开。作为数据中心云计算产业内知名的盛会以及IDC企业、电信运营商、互联网、金融、政府和厂商等产业上下游的高效沟通平台，与会嘉宾包括政府领导，行业专家和企业代表数千人。以

副标题[/!--empirenews.page--]

2020年12月8日-10日，第十五届中国IDC产业年度大典在北京国家会议中心正式召开。作为数据中心云计算产业内知名的盛会以及IDC企业、电信运营商、互联网、金融、政府和厂商等产业上下游的高效沟通平台，与会嘉宾包括政府领导，行业专家和企业代表数千人。以“数据中心新技术与应用”为主题的分论坛于10日举行，广东浩云长盛网络股份有限公司全国运维总经理朱红兵发表了《数据中心全生命周期运营管理》主题演讲。

朱红兵

尊敬的各位领导，专家，大家上午好，我是朱红兵，来自浩云长盛网络股份有限公司，我从事数据中心运营管理有十几年，先后在电信运营商、互联网公司和第三方的运营商负责运营管理工作。今天以我自己的经验和心得分享一下数据中心运营的心得和经验。

第一部分，数据中心的运营特点和痛点，大部分时间聚焦在数据中心的解决之道，最后会有一个小的回顾和展望。

首先看一下数据中心的运营责任，作为数据中心的运营方肯定有很多KPI和压力，包括成本管理、人员培养、团队管理、SLA的达成。但是数据中心的最重要责任就是数据中心的可靠性或者可用性，因为数据中心的运营工作是为数据中心结果负责的角色。我是把数据中心的可靠性定义为永不妥协的指标，是作为我们的首要责任。

我们再看一下数据中心运营的痛点，第一个痛点就是宕机的风险，事故的种类大概有三大类，第一类是设备类的，包括UPS、发电机、空调，因为我们的设备跟生物体一样也有生命周期，设备本身也有磨合期、稳定期、衰退期，设备天然的性能落后这是一个大的原因。第二个原因是人为的原因，第三个是自然灾害环境的原因。设备的故障通过有效的预防性维护手段进行降低。人为故障或者自然灾害通常没办法彻底消除，所以我们数据中心的故障或者宕机的风险在某种情况下时可控的，但是没办法消除。宕机的成本又是往往非常高，我们看一下北美的数据，单次宕机造成的成本接近100万美元。当然这个数据我们可以拿过来参考，作为我们第三方数据中心运营商来讲，两类公司，第一类已经上市的数据中心运营商，这样的宕机事故对公司的股价会带来波动，对于我们这样新兴的数据中心运营商会大幅影响融资和公司的估值，这个是最大的痛点。

数据中心运营的第二个痛点就是运营的复杂性，第一个方面因为我们需要遵行或者依照的标准要求、规范特别多，包括我们有国标、UPITIME的规范。第二大类原因是可以看现场的运维管理工作，除了现场的巡检、设备维护，做故障处理和隐患消除，做这些工作的时候还要保证SLA的刚性达成，还需要保证时效和系统可用性。第三个主要在于三个密集型，数据中心运营工作密集型：

第一，人员密集型，这个比较容易理解，举个例子，一个具有20个人的设计团队作为第三方数据中心运营商，它在国内应该是TOP10了。一个具有20个设计团队的第三方运营公司在国内可能接近TOP10了，但是一个具有20个人运营团队的公司只是刚刚起步，常规的中等数据中心人员需要20人，人员非常复杂。我之前所在的一家公司是国内的上市公司，整个公司接近500人，运维团队我负责的管理人员接近400人，超过了它70%的人员，这么多人员的管理难度是非常大的。

第二个，资本密集型。因为数据中心是重资产行业，我们2000个机架的数据中心，大概基础设施投资2个亿左右，如果含上服务器的资产和网络传输设备的资产，这样的数据中心里面的资产规模超过10个亿，接近15亿。这么贵重的资产在一栋楼里面带来的基础设施运维的，信息安全的，审计的苛刻要求。

第三设计密集型，数据中心主要涉及电器、暖通、消防、路电，但还包括计算机、网络、传输，需要很多复合型的专业理论支撑。这么多的要求导致专业性要求非常高。我们综合来看三个方面大的原因导致了运营的复杂性是非常高的。这是运营的第二个痛点。

针对数据中心运营的痛点或者特点，我们该怎么做？浩云长盛网络股份有限公司结合自己的经验和心得，我们有四个方面的解决之道。

数据中心的运维体系整体的接受度非常高，因为现在都或多或少逐步建立和完善自己的运维体系，但是容易出问题的是容易缺头，缺前面的这部分。缺尾是后面那部分。很多数据中心在中间的运营过程当中它的SOP、EOP、应急预案、应急演练都比较完善。但是有没有参与前期的数据中心选址，有没有前期阶段把自己的要求融入到设计规划里面去？在工程建造的时候有没有查验？有没有跟进工程质量？在验证测试过程中有没有主导验证测试？第二个容易缺的尾巴，因为我们数据中心正常的生命周期大概是8到10年，但是我设备的生命周期没有这么长，像蓄电池正常的生命周期就是6年左右，包括冷气塔、精密空调、风柜，它的周期5到8年的时候需要大修，需要优化、改造，这部分的运维体系很多第三方同行是容易缺的。

第二个容易缺的地方是很多同行做这个事情的时候，它的运维体系有，但是很多年没有迭代。我们经常跟友商交流，看它的运维体系整体的非常好，放在文件夹里面，一翻2017年制作的，到现在三年了没有任何变化，但是三年的时间周期，数据中心的人员已经发生很大变化，数据中心的设备负载率发生很大变化，数据中心的设备性能也发生很大变化，但是它的运维体系一直没有优化迭代，还是那样的状况，没有与时俱进，这样就导致很多问题。我们有一个华南的数据中心在今年疫情过程当中，1月23号广东省已经发生了应急预案，但是这个公司到3月份也没有做预案，政府把这个数据中心所有的人员强制隔离了，他们没办法找了省内休假还可以回到广东的员工，加上托管的人员，几乎等于裸奔。1月份已经发布了严格的公共卫生预案响应，企业没有迭代自己的体系，还按照原来的方式运行就容易出现问题。

对于我们新兴的业主单位，或者刚刚进入这个领域不久的第三方运营商，个人建议可以参照一下MO的运维管理体系，优化和迭代企业的运维标准。

泰尔把数据中心的认证分为T1到T4，标准核心要素有两个，第一个它的拓扑结构，第二个是做它的运维管理能力。拓扑结构是现在主流的数据中心已经接受度非常高了，基本都是按照机房或者T3+的标准建设，这一部分在拓扑结构国内的差异不是特别大，基本都能满足这样的要求。影响一个数据中心的可用性，它的永续能力主要看它的运营管理能力，运营管理能力很弱，你的数据中心也未必达到T3+的标准。

简单小结一下：一个优秀的运维体系，一个优秀的运维管理体系，它一定有两个特征，第一个覆盖全生命周期，第二个它的运维体系一定是不断地优化、迭代，不断地完善的体系。

这是我们全生命周期运营解决之道的第一点。

（编辑：辽源站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/5

尾页