横琴新区大数据平台项目(集成开发服务)横琴大数据平台系统故障处理作业指导书1.目的1.1规范系统故障处理作业的流程,保证系统故障处理过程的安全可靠。2.适用范围2.1适用于珠海大横琴科技发展有限公司(以下简称科技公司)所属横琴大数据平台项目所有设备、系统(含网络设备软硬件、广域网线路、系统主机、操作系统、存储系统、数据库系统和中间件系统、备份系统、刀片服务器系统等)的故障处理作业。3.名词定义系统运维岗:指横琴大数据平台系统设备现场运维人员,包括系统数据库运维人员、系统网络安全设备运维人员、应用服务器和中间件运维人员、小型机/操作系统/备份系统运维人员。系统运维岗的主要职责为负责中大数据平台系统日常现场运维工作,定期对系统/设备进行巡检,发现故障及时排除。系统负责人:指具体负责不同系统(数据库系统/系统网络安全/应用服务器中间件系统/小型机操作系统备份系统)运维的运维技术人员。4.故障分级横琴新区大数据平台项目(集成开发服务)大类上分为常规性故障和突发性故障两大类;a)常规性故障如文件系统使用率较高、备份系统中备份数据达到有效期限需要清理等故障,通过一般性操作进行定期清理来即可修复的故障。b)突发性故障指在日常巡检和监控过程中发现的不是定期重复的各类系统故障。针对突发性故障,根据故障的不同可大体分为如下四种情况:不影响业务且可立即修复故障;(如:系统分区操作系统备份失败等)不影响业务且不能立即修复故障;(如:系统冗余硬件发生故障,需要厂商进行更换等)影响业务且可立即修复故障;(如:某系统网卡发生故障,需要重新启动该节点等)影响业务且不能立即修复故障;(如:系统小型机主板发生故障,小型机无法正常工作,需要进行系统分区功能切换等。)5.职责a)系统运维岗中各系统负责人(主角)依据运维规范,对横琴大数据平台系统设备进行定期巡检;在系统故障发现初期,应及时上报相关系统负责人,并配合进行系统故障的初判;在系统故障处理阶段,在系统负责人的授权指导下,按指定步骤,对系统故障进行排除。横琴新区大数据平台项目(集成开发服务)b)系统运维岗中各系统负责人(主角)在故障发现初期接到故障报告后,在现场技术人员的配合下,确认故障涉及范围,可能造成的相关影响并对故障原因进行初判,在得出相应故障处理建议后报运维管理岗。在故障处理阶段,在得到运维管理岗确认后,授权或指导现场技术人员对故障进行排除,并在故障排除后,向...