总106期
2017.08 总第106期
报纸定价 : ¥2.00
企业运维的自我定位
文/郭晓征

IT架构和IT业务的技术发展是运维发展的推手,随着IT大集中、SDN、云计算、大数据等技术不断涌现,IT资源架构复杂度及资源规模不断增加,加大了运维的复杂度和难度。从手工运维到工具化运维,再到将工具融合的平台运维,以及现在的智能和自动化运维,运维领域经历了一次次技术变革。云时代,如何选择合适的运维模式和运维工具,以及如何设置合理的组织架构和管理制度,是IT主管需要重新考虑的问题。

讨论运维时,人们往往只考虑技术本身而忽略场景差异,难以达到良好的效果。基于几年来在运维领域的经验积累,笔者总结出四个影响运维模式和运维工具选择的属性,即行业属性、成熟度属性、规模属性和位置属性。

运维的行业属性

不同行业的业务特点不同,运维模式差异很大。

互联网业务发布、更新快,服务器多,研发能力强,往往一周内发布几个甚至几十个新业务。基于ITIL(IT基础架构库)的变更和发布流程虽然考虑周全,但节奏慢,不适用于互联网业务快速更迭的特点。互联网运维模式非常关注效率,应选择自动化和自运维等高效运维模式,建立准确的CMDB(配置管理数据库),推行敏捷开发、DevOps(开发即运维)、灰度发布和开源结合的模式。

政府运维以核心业务保障为主,新业务增速缓慢,但安全性要求高,往往有分级管理要求。政府选择运维产品时注重一体化运维、智能故障定位、业务级资源监控和安全运维,传统的ITIL流程对政府的管理具有较大的指导作用。

大型企业与政府的特性类似,除了部分大企业IT基础设施规模庞大,有自动化要求外,其他运维需求与政府基本一致。

对于金融行业,核心数据库的备份、恢复、演练是其运维的例行工作。金融运维的规范性是最强的,多数银行在几年前引入了ITIL流程工具,近几年金融业增加了在线支付,业务及运维发展路线上逐步向互联网靠近。金融业在选择运维产品时注重交易级监控、自动化和一体化运维,DevOps可能会是大型银行今后的选择。

运维的成熟度属性

运维的成熟度影响运维工具的选择。不同的运维成熟度决定了运维所处不同阶段和不同时期的用户应该重点关注的内容。脱离实际的激进做法往往得不偿失,例如没有做好监控直接建设运维流程,造成运维流程和监控脱节。另外,CMDB建设中过度追求完美而不考虑现有监控能力,导致CMDB维护成本过高。经过多年探索,笔者建议将运维分为四步:

第一步,做好一体化监控,统一监控所有IT资源;

第二步,基于一体化监控,建设CMDB;

第三步,基于一体化监控和自动化CMDB建设ITIL运维流程体系;

第四步,基于ITIL进行改进,实现自动化、智能化。

运维成熟度还包括人员成熟度,涉及运维人员的技能成熟度、组织流程成熟度和开发能力成熟度。技能成熟度越高,问题处理和反应速度越快。如何让运维减少对个人技能和知识的依赖是对运维工具的重要考量。要解决此问题,一是建立准确的CMDB配置信息库,二是将专家经验固化到运维工具中,运维专家系统是今后运维工具的发展趋势之一。

当前,开源软件的数量和成熟度越来越高,充分利用开源软件对业务和运维都是很好的选择,但这提高了对运维人员的开发能力成熟度要求。开发能力成熟度,体现了运维人员的需求分析能力、框架设计能力、编码能力、开源软件熟悉程度、业务背景知识和对软件开发过程的理解能力。DevOps在运维界的流行说明了开发和运维的逐步融合,这无疑是运维发展的趋势之一,然而在没有充分开发人力和敏捷过程储备的前提下,贸然选择DevOps模式,有可能面临巨大风险。

运维的规模属性

规模属性包含设备(服务器和网络)、业务规模和运维人员规模。设备数量较少时,可以通过人工管理,但是随着设备数量增加,运维难度呈指数级上升,再依赖人工运维几乎成为不可能完成的任务。当运维规模进一步上升,传统运维演变成海量运维,海量运维不单纯是运维工具的变化,同时带来技术价值观、技术手段以及运营意识等的改变,影响到深度运维方法论的变革。

规模属性还包括运维人员规模。如果运维人员少于8个,要慎重考虑是否建设复杂的运维流程。如果企业运维人员超过20个,运维流程的重要性就凸显起来,但是随着自动化和智能化技术逐步普及,轻量化运维是未来趋势。

运维的位置属性

运维的位置属性包含网络位置和逻辑位置。被运维对象所处网络位置大致可以分为接入网、广域网和数据中心,上文更多地谈了数据中心的运维,下面讲讲接入网运维和广域网运维:接入网运维涉及终端、接入方式、身份认证等方面,复杂度高,运维人员需要具备多方面的知识和丰富的运维经验,固化运维经验的专家系统是其今后发展的方向;广域网运维相对要简单些,对于多数企业而言,广域网一般是租用为主,因此主要是监控线路的时延、丢包、抖动和占用容量。

另一位置属性是逻辑位置。随着云计算的普及,运维人员分化为云建设方和云租户:云建设方重点关注资源的运行状况和利用率,同时考虑数据中心的成本及风险控制。如何提升资源利用率,同时保证业务风险可控,是云建设人员的重要考量,同时集群容量、数据中心容量等多维度的容量管理也是云建设方运维的必备需求;云租户只有资源的使用权,关注的是业务运行情况和资源占用容量信息。如何将众多应用层基础监控数据规整成简单、直观的监测仪表盘,是租户运维工具的重要考量。云租户管理员还关注业务资源能否在成本可控的情况下及时得到扩展。

还有相当多企业的运维工作由统一团队负责,其云融合运维团队要兼顾上述两者的职责。

本文介绍了运维的行业属性、成熟度属性、规模属性和位置属性,企业运维主管只有明确自身所处的位置、阶段,才能更好地确定运维的发展思路。运维体系正像自然界的生命一样不断进化,今后的数据中心一定是自运维的体系。要达成自运维,除了运维本身技术、工具的发展外,还依赖于其他IT技术的支撑。