行业洞察
首页 >  行业洞察 >  专家交流 >  CIO:用自动化运维构建高效的IT服务

CIO:用自动化运维构建高效的IT服务

  • 发布时间:2016-06-06
  • 来源:微信号“CIO之家”
  •   
  • 打印

企业的资源,即人员、流程和信息,越来越多地依赖于日趋复杂的IT运行环境。企业的IT运行环境必须保证其服务的质量,并针对支持人员、流程和信息进行整合,以支撑企业的业务转型。另外,云计算、大数据、社交化、移动化等一系列创新应用正在改变着传统企业信息化的方式与内容。如何保障IT系统的正常运行,支撑公司的核心业务,已成为CEO、CIO需要重点思考的问题。

传统IT运维管理存在的问题

许多企业的IT运维已经实现从人工运维到计算机管理,但延展咨询在同客户的交流中发现其中很多企业的IT运维管理还只是处在“半自动化”的运维状态。因为这种IT运维仍然是等到IT故障出现后再由运维人员采取相应的补救措施。这些传统式被动、孤立、半自动式的IT运维管理模式经常让IT部门疲惫不堪,主要表现在以下三个方面:

运维人员被动、效率低

在IT运维过程中,只有当事件已经发生并已造成业务影响时才能发现和着手处理,这种被动“救火”不但使IT运维人员终日忙碌,也使IT运维本身质量很难提高,导致IT部门和业务部门对IT运维的服务满意度都不高。目前绝大多数的企业IT运维人员日常大部分时间和精力是处理一些简单重复的问题,而且由于故障预警机制不完善,往往是故障发生后或报警后才会进行处理,,使到IT运维人员的工作经常是处于被动“救火”的状态,不但事倍功半而且常常会出现恶性连锁反应。

缺乏一套高效的IT运维机制

目前许多企业在IT运维管理过程中缺少自动化的运维管理模式,也没有明确的角色定义和责任划分,使到问题出现后很难快速、准确地找到根本原因,无法及时地找到相应的人员进行修复和处理,或者是在问题找到后缺乏流程化的故障处理机制,而在处理问题时不但欠缺规范化的解决方案,也缺乏全面的跟踪记录。

缺乏高效的IT运维技术工具

随着信息化建设的深入,企业IT系统日趋复杂,林林总总的网络设备、服务器、中间件、业务系统等让IT运维人员难以从容应对,即使加班加点地维护、部署、管理也经常会因设备出现故障而导致业务的中断,严重影响企业的正常运转。出现这些问题部分原因是企业缺乏事件监控和诊断工具等IT运维技术工具,因为在没有高效的技术工具的支持下故障事件很难得到主动、快速处理。

对于大多数IT运维管理员来说,保障业务的正常运行是工作内容的重要一环,而在这当中最让IT运维管理人员头疼和措手不及的就是IT故障的处理了。尽管有经验的运维管理员可以通过经验的积累来快速判断故障的原因,但毕竟存在局限性,且并非每次都能得到及时解决,不利于企业对IT系统高效的业务保障需求。一旦出现故障,如果不能及时找出原因并解决,将对企业造成巨大的损失和无可估量的后果。

IT运维自动化管理的内容

简单的说,IT运维自动化是指基于流程化的框架,将事件与IT流程相关联,一旦被监控系统发生性能超标或宕机,会触发相关事件以及事先定义好的流程,可自动启动故障响应和恢复机制。自动化工作平台还可帮助IT运维人员完成日常的重复性工作(如备份、杀毒等),提高IT运维效率。同时,IT运维的自动化还要求能够预测故障、在故障发生前能够报警,让IT运维人员把故障消除在发生前,将所产生损失减到最低。

IT运维自动化的建设

❤ IT运维自动化的愿景

体系整合 建立自动化运维管理平台

IT运维自动化管理建设的第一步是要先建立IT运维的自动化监控和管理平台。通过监控工具实现对用户操作规范的约束和对IT资源进行实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等内容,通过自动监控管理平台实现故障或问题综合处理和集中管理。例如,在自定义周期内进行自动触发完成对IT运维的例行巡检,形成检查报告。包括自动运行维护,以完成对系统补丁的同步分发与升级、数据备份、病毒查杀等工作。

建立流程与规范,提高故障处理效率

设立IT运维关键流程,引入优先处理原则是指要求CIO定义出IT运维的每个关键流程,不仅仅是定义流程是什么,还包括要指出每个关键流程对企业有什么影响和意义。同时,在设置自动化流程时还需要引入优先处理原则,例行的事按常规处理,特别事件要按优先级次序处理,也就是把事件细分为例行事件和例外关键事件。

IT运维自动化管理建设时,首先需要建立故障和事件处理跟踪流程,利用表格工具等记录故障及其处理情况,以建立运维日志,并定期回顾从中辨识和发现问题的线索和根源。事实上许多实践也证明,建立每种事件的规范化处理和跟踪指南,可以减少IT运维操作的随意性和强化运维的执行力度,在很大程度上可降低故障发生的概率。同时,用户还应可以通过自助服务台、电话服务台等随时追踪该故障请求的处理状态。IT运维人员必须在指定时间内完成流程所规定的环节与工作,以提高IT运维响应问题的效率。

三环一库,快速构建运维自动化

(图片来源:李志刚-1号店自动化运维构建)

联系我们