加入收藏 | 设为首页 | 会员中心 | 我要投稿 辽源站长网 (https://www.0437zz.com/)- 云专线、云连接、智能数据、边缘计算、数据安全!
当前位置: 首页 > 云计算 > 正文

【2018可信云大会】云智慧王理想:保险行业数字化转型解析

发布时间:2018-08-16 19:14:01 所属栏目:云计算 来源:中国IDC圈
导读:大家下午好,我是来自云智慧的王理想,今天主要给大家分享的主题是智能业务运维最佳的实践和做过的落地案例。 今天主要分三个方向做内容分享。第一介绍一下整个企业、整个大环境下做数据化时代的机遇与挑战。 首先看到一些数据统计,不管是单个应用的规模

紧接着会再输出数据中心的实时监控大屏,这里主要强调的是主要的数据中心之间它网络连通性的状态是怎样的,一主两备还有各个分支机构它的网络到数据中心之间网络连通性怎么样,同时会把比较关心的主数据中心、容灾中心、他们自己本身的流量、安全的拦截数、访问数等等,会把这些底层数据做一个大数据的采集之后,然后做可视化的展示。同时我们要关心各个分支机构整体的网络或者数据中心的状态,会把数据中心整体的流量、访问量、它出现的问题做趋势的展示。

我们了解数据中心上跑的应用的状态,这里包含整个云平台到底跑了多少应用,整体应用它的健康程度的占比情况怎么样,应用它的点击访问量的趋势变化、系统部门的活跃程度、出现问题的统计,这样就从最底层的、基础的、网络的上升到了解应用层面健康度是怎么样的,再往底下是它的网络,这个网络会根据客户不同的网络情况分为不同的网络状态展示,比如有城域网的状态,很多小的点是各个分支机构下一些更小的机构到每个城中心之间的网络状态。右侧是把网络整体使用率状态、带宽、承载率等等进行汇总的展现。

安全代时的感知,帮它把所有安全上的问题做大数据的采集,去了解它整个数据中心在安全方向整体存在哪些问题,整体问题的态势是怎样进行趋势变化的,具体问题描述是什么都会在可视化的大屏中进行展示。

落地实践的案例和最终交付给客户的可视化的内容,实际上我们在做这些内容之前是给他们做了很多分层式指标的体系,包括在安全方向会和客户根据它的业务场景定义他每个指标的内容怎样规定安全的评分、拦截率多少是正常的,会根据这个构建多维度的指标体系,包括安全方向的、大服务上的、数据中心、数据中心运算的速度、虚拟化转换率等等。还有大社区,不同的业务下它指标的变化怎么样才叫合理或者怎么样才是优秀,会给客户做指标体系的定义。还有自己大数据指标的维度定义、网络层面、运维的层面,要了解运维KPI,定义怎么样的指标才是符合他们整体的指标体系。还包括其他一些大的协同指标,这是我们在大数据运维第一个阶段,在政企客户落地的实践。其实总结下来,我们说主要从它的IT基础设施出发,帮助他做数据中心网络还有上边跑应用的统一的运维管控的平台。

第二个是在业务运维这个领域做了金融客户落地的实践,这里我们叫做业务健康与IT运行状态实时监控的可视化的输出,可以看到这里融入了很多业务的指标,客户的业务指标包括它的用户数、交易数、关键指标的变化趋势,支撑这些业务的是有相关的系统,每个系统的健康度是怎样的,会通过采集大量的数据,各个指标,通过利用大数据和AI的算法帮它智能的算出来整体业务健康的评分。支撑业务的底下是有很多业务系统,每个业务系统再根据监控得到的指标,根据一定的算法输出它最终展示的状态,是不是正常、是不是有问题。

支撑这些业务系统再到底层的是它的资源,这些资源包括主机、网络设备、应用,这些底层资源总体健康都怎么样也可以进行统一的展示,从客户各个业务之间都进行了统一采集,从用户体验层面,不管是APP还是访问的健康度还是网络的连通性,再结合告警消息的汇总,业务健康与IT运行状态实时监控大屏,包括客户把所有业务和IT状态进行了统一的展现,只要中间发现交易量有下降或者有异常的变化,可以一目了然的看到支持这个交易量外部的用户体验、网络和业务、系统、资源、整体的健康度怎么样,这样就实现业务与IT之间双向的驱动,可以快速的了解业务的健康度,同时能够快速的了解和业务相关联的各个系统、各个网络、各个用户体验的状态。

在业务运维领域,我们也在航空客户上有相关的落地实践,我们给航空客户做了业务应监控分析的平台,这里主要是采了航空的日志、平台、系统的很多数据,通过这些大量数据的采集、清洗、存储之后,最终输出和它业务相关的指标,包括航空平台的收入情况、航班信息、油量、其他的指标。这里主要是体现了我们在业务运维里面大数据处理能力,我们每天差不多采集它几TB数据的量,分析之后得到的结果。

我们业务运维也在支付行业的客户也有落地的实际案例,这里就是展现了支付行业所关心的不同的国际卡、快捷支付、权利交易、日常指标等等这些指标怎么进行变化的,我们会利用大数据化AI的算法进行评分,它的占比情况怎么样,同时支撑业务的业务健康怎么样,会进行及时的展现。这里通过运营监控可视化,让他一目了然知道整体的状态和哪里出现问题了。再出现问题之后要深入的追踪这些问题,我们平台也有深入追踪的功能,比如我们要做业务交易调用链的详细追踪,帮助我们了解业务的调用关系,从通道系统、核心系统到个人门户,怎样进行多应用之间的关联调用,怎样进行数据库的操作都可以进行详细的记录。然后针对关键事物可以了解它整体单个请求的响应时间,和单个请求之间是怎么样调用的,当时调用的UI地址是多少,用了多长时间,再往底下每个代码的对阵用了多长时间、每个方法用了多长时间都有详细的追踪。我们在这个客户的落地实践都是实现了从它最全的可视化的总览图可以深入的分析细节化的问题,最终能把问题定位到代码层级,了解每个方法,每个语句的性能状态。

第三个阶段我们也有一些落地的客户,比如智能运维在制药客户有智能告警的落地,这里可以看右侧的简介,我们真实的客户,它每个月产生的告警条数在六万条以上,平均告警风暴在每分钟800条,这时候他们的运维是比较痛苦的,每天收到告警是麻木状态,收到告警也不认为有问题,最终有问题也会忽略掉,应用到智能运维平台之后,我们把海量的信息压缩合并,最终把告警消息压缩到9%左右,减少了91%的无用告警,差不多最后每个月的发送量只有一万条左右,这就实现了我们帮它进行智能告警的压缩。同时我们除了做压缩合并之外还帮它做关联,帮助他们把一个事物所有相关联的,从它的客户端到应用、服务器、硬件、之间是怎样的的调用关系做一个整体展现,如果出现问题之后同时看我们的关联分析图可以快速定位到是哪个节点出现问题,降低了故障恢复的时间,差不多20分钟左右,提升了KPI的考核。右侧是当时我们做的截图,在这里可以看到具体的告警事件的列表。

(编辑:辽源站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读