业务背景:
客户是中国某大型金融集团,由于业务的快速转型,其云产品的数据和内容在快速增长,运维对象和运维内容的变化也越来越快,这时减少故障发生,保障平台平稳运行就成为了一个迫切的需求。自动化运营平台这是这个需求下的产物,其目的是成为运维的统一入口,提高运维的效率与质量,实现需求、故障的提前预测与一键式自动操作等功能。
解决方案:
佰钧成从三个维度确定这个运维平台的开发理念。
首先,是基于ITIL的流程管理。由于该云产品承担了该客户一部分企业基础架构的角色,所以为了满足金融企业的高合规特征,云产品的运维要严格遵守ITIL流程,包括按照公司的制度规范要求实施变更、事件、问题、业务持续计划以及容量管理;针对云平台特有的工作内容,制定管理规范和文档;对运维人员进行思维模式、行为习惯和能力的培训和考核。
其次是用DevOps的方法论去管理这个运维产品的开发,即在产品开发阶段即引入运维参与,确保产品的可靠性与可运维性。
最后是引入SRE运维平台系统,确保平台的可靠性,其中心思想有两点:从软件或架构层面分析问题解决问题,避免引入人的工作或影响;所有必需的操作都要有工具支撑,避免随着底层操作对象资源的增加而增加工作人力。
客户收益:
² 对接科技运营制度与规范,制定了云产品内部的流程制度,保证了故障发生时的快速响应与多团队联动;
² 通过用户自助服务,提高了用户对于云主机的控制能力,同时大幅减少了主机部分的交付与运维成本;
² 通过集中运维平台,自动化了一大批原本手工才能完成的工作,以少数人力支持了快速发展的业务需求;
² 贯彻执行DevOps思想,在产品设计开发阶段即考虑可运维能力,同时全员参与运维又提高了产品人员对稳定运维的重视和运维自动化水平的提高。
业务背景:
客户是国内某大型ICT服务提供商,自身拥有体量巨大的云平台和云服务,由于登入的用户和数据的增多,传统的“发现问题,解决问题”思路已经不能适应新环境下的业务需求,而需要一个多指标、高精度、自动化、实时的监控平台来确保云平台的稳定运行。
解决方案:
佰钧成从“基础设施-云资源-中间件-应用业务”,实现可用性、性能、容量等维度实现全栈监控管理;适配公有云、私有云、内网等云平台,面向云化业务的底层基础设施、OS、站点、集群、云服务器CPU利用率、内存利用率、云数据库、磁盘利用率等各项云服务器负载和性能指标,支持多种告警策略配置,自定义告警阀值,通过多层主动监控,支持管理人员查看云服务的监控和运行状况,保障云平台和云服务的高效稳定运行,为海量运维和资源数字化运营提供了准确实时的监控数据。
平台架构:
客户收益:
覆盖云平台网络、计算、存储、应用等多方面,实现对数十万对象、数千万指标的自动化监控,对平台全栈多用户(IT管理者、数据中心管理员、网络管理员……)开发特定端口,在厘定平台监控内容和职责的基础上,约束异常状态和告警显示值,自动化的将对应职责分派到对应端口,快速有效的在每个环节进行监控,避免风险。