新闻中心
ITSS运维资优秀案例-保障业务稳定运行-联想(北京)有限公司
优秀应用案例之联想IT运维智能化转型提升服务质量-保障业务稳定运行-联想(北京)有限公司
一、案例背景
1.实施背景
联想集团是—家成立于中国、业务遍及180个市场的世界500强公司,作为智能设备的领导厂商,在Gartner顶级全球供应链榜单上排名第15 , 联想每年为全球用户提供数以亿计的智能终端设备,包括电脑、平板、智能手机等。
联想全球员工人数众多,分布在世界各地170个国家和地区,跨越所有时区。每天产生7万多个文档分享,发出的邮件超过60万封,双方会话或者多方线上会议超过16万个。这些都是联想IT运维团队在进行支持。同时,联想IT运维团队还运维着25000台以上的IT设备,4500台以上的物理服务器,以及400以上的业务应用系统。
联想IT运维团队面临着两方面的挑战:一方面业务已经全球化,业务应用系统复杂性高,业务对IT依赖性强,不能够中断,如何能为全球业务提供7*24小时的支持,保持系统稳定运行?另—方面,IT运维团队自身也面临不断降低成本,提高效率,展现专业素养与价值的要求。通过引入ITSS标准,不断推动人员、过程、资源和技术等能力要素协同改进, 推动运维工作成熟度提升,实现了IT在保障业务运行,提升运行效率方面的精准管理与赋能,助力业务增长。
2.实施目标
伴随着联想全球化,联想IT运维发展分为三个阶段,目前属千“智能化”阶段。
“一体化”阶段 (1998年—2004年):随着联想公司的成立,逐步建立了信息化系统,尤其是ERP系统。在这个阶段,联想集团的运维工作与桌面,服务器和网络等硬件紧密绑定,初步建立了统—的IT服务管理。“全球化”阶段 (2005年—2016年):从2005年联想集团收购IBM ThinkPad业务开始,联想IT运维团队致力于建设标准化的运维服务体系。期间引入ITSS标准,不断推动人员、过程、资源和技术等能力要素协同改进,围绕核心业务系统运维工作定义了标准的IT运维流程和服务目录,实现了基础架构资源云化等重要技术工作。 运维智能化阶段 (2017年至今):联想IT运维团 队在2017年提出运维智能化转型战略,实施量化的运维服务能力管理,用更加智能的解决方案和更灵活多样的服务方式,保障业务运行。2019年下半年引入ITSS标准成熟度的一级,2020年见到成效,通过建立并应用模型,将模型与服务业务相融合并持续改进,推动运维工作不断提升与创新,自主开发应用,支持敏态及稳态双态业务发展。在能力管理、交付管理、应急管理、人员管理、资源管理和技术管理等方面均建立了量化指标评价体系,推动运维技术研发支持公司战略,实现了多云架构,自助服务等的研发。
二、应用过程
1.全年工作总结实施方案
联想IT运维团队基于自身发展需求,在2017年提出运维智能化转型战略,通过引入ITSS标准,研发、创新了一系列智能化产品与解决方案,不仅应用于IT领域,也推广到业务团队,助力业务实现数字化运营。
2.实施过程
以ITSS标准为指导,联想IT运维团队围绕人员、资源、过程、技术四要素推进智能化转型 。
人员方面,联想IT运维团队基于ITSS标准,制定了统一的事件、监控、问题、配置、变更和发布等流程,确立了统一的标准,厘清了人员职责。并且针对重大故障管理,强化应急管理能力,设立了专门的 MIM(Major Incident Management ) 团 队和流程,集中打硬仗,作为IT运维"吹哨人",及时对重要问题提供强有力的跟进协调和管理,并作为IT重要问题沟通窗口,对过程进行实时通报。事后牵头组织相关团队深入复盘,制定改进措施,避免同类问题再次发生,推动IT及业务团队持续优化。全面分析历史上的所有重大问题,提出并推动更加广泛深入的改善措施,强化了IT运维团队的责任心,提升了团队的战斗力,向业务团队展示了 IT运维的价值和能力,也为智能化奠定了组织层面的基础。
资源方面,除了实施CMDB, 存储IT环境的软硬件数据外,运维团队还实施了运维数据湖,将监控平台采集的指标、曰志等数据,事件、变更等运维单据数据,以及CMDB中的IT环境数据统一接入,并对这些数据进行清洗、模型计算和存储,保证了数据的高质量,支撑了IT用户画像,智能知识推荐以及智能分析等应用场景。
过程方面,在智能化运维的基础上,实现了对事件、监控、问题、配置、变更和发布等流程的实时管理仪表盘,实施掌握SLA达成情况;实现了针对核心应用的360度系统健康度检查,做到了实时掌握应用健康情况,提前预警,主动应对故障;实现了针对客户体验的分析,在全面理解用户声音的基础上,针对性地解决问舰,赢得了用户,尤其是业务部门关键用户的好评。
技术方面进行了多项智能化工作,以下列举两项
智能自助机器人
联想的员工总数随着业务的成长,在5年间增长一倍以上,员工报单量从25万增长到50万。这样大规模的增长,对运维团队也带来了巨大的挑战。
随着运维服务台业务压力的逐步增加,我们依据《信息技术服务运行维护 第1部分:通用要求》( GB/T 28827.1-2012) 的指导,全方位提升工程师能力、优化单据管理流程、加强服务质量管理 、沉淀标准IT服务知识。在此基础上,运维团队打造了智能自助机器人产品,通过自然语言处理引擎,准确地理解用户所说的意图,结合知识图谱,精准地推荐唯一答案给到用户,实现“易于查找";再将智能自助与多条业务系统进行数据集成,通过优化后的交互界面、简洁的表单,让用户一键完成查询、申请、审批、修改等服务,实现“易于操作”。
在IT智能自助机器人获得用户一致的认可与好评后,我们秉承开放的思路,将这一技术应用于更多的企业内部服务场景,用多种语言(中、文、英文和日文),针对不同的业务场景 (IT、行政、人力资源等),提供多样化的支持:
即时通讯软件:Skype是联想内部每位员工每天都离不开的即时通讯软件,将机器人服务部署到Skype账号中,让员工可以通过最习惯的方式获取到自助服务。
内嵌网页:嵌入式机器人可以部署到任意网页中,并且可以定制独立问答内容。当用户使用一个网页版系统时遇到了问题,在页面上就有机器人回答问题,告诉用户解决方案。
移动办公:在联想,移动办公软件”乐聊”为员工提供了掌上百宝箱,可以完成聊天、请假、审批、查询等多种操作。搭载乐聊app , 我们开发了移动端机器人,员工在打开乐聊后,即可像PC端一样提问、获取答案。
通过实施智能自助机器人,用户净推荐值NPS由50提升至72, 年回复间题量达到30万以上,为IT服务台坐席节省约25%的准备时间。
端到端系统和业务数据监控
随着联想业务的扩张,运维面临着极大的挑战,软硬件的数量大幅增长,应用也越来越复杂。由于联想的业务链路长,一个故障往往涉及到多个系统,IT运维团队凭借传统运维的工具、流程和技能,已经无法完成对故障的监控和处理,因此运维团队打造出端到端系统及业务数据的监控能力,通过关联分析,打破各个团队的信息壁垒,实现快速定位问题和诊断分析。
端到端系统和业务数据监控,需要涵盖基础设施,应用系统和业务三层进行:技术团队驱动基础设施层的监控指标,使基础设施层指标更加通用和标准化;应用层面的监控会根据不同的业务需求以及技术架构而做更多的定制化;业务层面的监控通常是业务流程或者业务场景驱动,非常定制化且跨应用居多,通过7乘24小时无死角的实时监控,保障应用系统和业务的稳定执行。
通过实现端到端的系统和业务数据监控,我们利用大数据技术、机器学习算法等完成对业务流程的智能预警。以联想全球供应链计划系统监控 为例,联想全球供应链计划系统承载着全球供应链业务,业务运作高度依赖于计划系统按时输出计划结果,不能正常运行会导致无法发货,后果严重;800+多个工作流横跨计划系统多个模块,并与供应链上下游合作伙伴系统集成,与公司内ERP、MES等上下游系统集成,横跨多个应用与技术栈。系统方案涉及范围广、复杂度高。
针对该系统,我们监控了6万以上的工作流节点,100个左右的应用实例,收集了分散的系统曰志,利用大数据和机器学习等技术,采用了动态闹值、告警压缩和相关性分析等手段,实现了对全球供应链计划系统的智能预警,规避了15%以上的计划延迟。
三、应用效果
最初2013年引入《信息技术服务 运行维护 第1 部分:通用要求》(GB/T 28827.1-2012), 联想运维团队在规范化标准化方面实现了显著提升,随后随着业务能力的加强在 2014年获得ITSS运维能力成熟度二级。2019年引入ITSS运维成熟度一级标准,通过建立并应用模型,将模型与IT运维业务相融合并持续改进,促使运维服务能力得到了显著提升:
能力管理方面,建立了联想IT运维服务的历史数据分析模型,积累了近五年的数据,为业务决策人员提供支持;
交付管理方面,在进一步优化了原有运维服务交付的模型,实现了对运维交付成本、风险、投资回报和持续改进的有效控制,引入自动化工具对运维服务交付过程进行追踪;
应急管理方面,能力得到了进一步强化,设立了专门的重大故障管理团队和流程作为IT运维"吹哨人",建立了重要信息系统的风险评估机制,强化了日常监测;
运维服务质量评价体系进一步细化,针对项目级的指标制定了裁剪指南;
人员管理方面,建立了量化评价运维人员技能的指标体系,实现对运维人员的分级分类精细化管理;
资源管理方面,制定了监控工具和过程管理工具实现数据、信息共享和交换的规范,支持运维服务业务的统计分析、报告和量化管理;
技术管理方面,围绕监控工具、人工巡查、间题发生风险,针对投入产出和业务影响建立分析模型,根据模型分析选择合适的策略;
过程管理方面,不仅对过程进行记录,而且尽可能地实现了自动化,例如对事件管理进行记录、展示和整合,与服务质量评价指标相关联,并进行统计分析。
通过2019年引入ITSS运维成熟度一级标准,联想运维管理水平从“好”到“精”,在2020年收获了丰硕的成果:
服务交付方面,通过能力管理、交付管理、资源管理和过程管理等能 力的提升,在保证全球服务时长7乘24的基础上,用户自助率从30%到达50%,一线解决率从75%提升到了80%以上,SLA达成率从95%左右提升到了98%以上。
应用可用性方面,同样对比引入前和引入后,通过应急管理和技术管理等能力的提升,可用性从 99.5%再上—个台阶,提升到了99.8% 以上,P1和 P2(优先级最高和次高的故障)比率,从约3%下降到了小于1% ; 对于财务月结的支持,从每月约4个P1 和P2下降到了每月1个以下。
客户满意度方面,在对运维服务质量评价体系和人员管理精细强化后,从95%左右上升到了2020年的98% 以上。
如下图所示:
调整及建议
作为全球化企业,联想IT运维团队不断提高标准化、自动化、智能化,更好地保障业务运行。在IT运维工作的开展过程中,我们引入了ITSS标准,服务标准化是IT运维团队服务水平提升的基石。以IT服务台为例,经过了标准化的洗礼,IT服务台的人工单据数据完善、分类清晰、记录完整,在经过大量的单据分析后,我们发现办公软件的使用问题常年稳居第—位,这也成为了智能自助机器人的第—个切入点。另一方面,服务标准化也使得每个团队的服务都可以被一致地衡量,拉齐了服务水平,提高了用户满意度。
在今天,数字化正在打破传统IT运维的边界,标准化也使得自动化、智能化成为可能。通过将标准化流程改造为自动的,甚至智能的流程,更好更快地服务用户,主要发现和解决故障,业务部门得以心无旁骛地发展自身业务,IT运维团队也为公司创造了更多的价值。
文章来源:ITSS分会
了解更多ITSS认证