数据中心运维

运维管理团队+品质管理团队+信息化管理团队
D

运维管理理念

数据中心基础设施的运维管理,是指确保数据中心环境能够满足计算机设备正常运行所需的各类设施、设备的运行能够满足客户SLA的要求,包括机房供配电系统、空调系统、消防系统、安保系统等等。
随着大型互联网数据中心指数级规模的快速增长,各项互联网业务对数据中心的依赖性越来越高,且数据中心自身技术特点也在不断发生变革,因此基础设施运营商需要针对基础设施进行更加趋向精细化的运营管理。



数据中心的运维架构体系

数据中心的整体运维组织架构应由三大块组成,即运维管理团队、品质管理团队和信息化管理团队。这三个管理团队相伴相生,缺一不可,运维管理团队确保日常的制度执行和快速响应,品质管理团队确保运维的质量督察和风险管控,信息化管理团队确保运维体系标准化、可复制和度量化全面落地。

运维管理团队

主要负责日常运维的管理和执行,含一线和二线的运维支持。主要负责现场运维、应急处置、设施设备维护等工作。

信息化管理团队

主要负责运维管理和大数据分析平台的研发与日常维护。

品质管理团队

由高级运维和精益化管理团队组成,高级运维主要负责各个数据中心的验证、重大故障处理和预防性维修工作,作为三级运维支持对整个运维管。

数据中心高阶运维服务

高级运维和品质监察

高级运维
高级运维又称高维工程师,分暖通和电气两个专业。其中暖通高维工程师持有大型制冷设备维修证,有二十多年的制冷设备维修经验,能主导修复大部分设备故障;电气高维工程师均有二十年以上电气经验,能主导UPS电池放电测试、柴油发电机年度维保工作。

高维工程师均有多个项目的机房验证验收工作经验,有丰富的问题发现能力和当责意识,促使验证验收工作保质保量按进度完成。
品质监察
品质监察主要负责日常行为规范及现场6S的检查,按照运维管理制度要求开展定期和不定期的飞行检查,结合现场、监控和平台三种方式,主要对以下方面进行检查:

· 运维记录:设备运行记录、能效记录、巡检记录、值班日志等
· 行为规范:工作纪律、着装规范等
· 6S管理:机房整洁、物品规范摆放等
· 消防安全:消防巡检记录、消防器械检查、消防隐患排查等
· 文档资料:文件清单核对,查阅、复印记录检查、现场资料有效性确认

每月汇总高维和监察的问题发现,输出月度监察报告,内容包括但不限于:问题描述、现场图片、纠正意见和期限。
每季度对客户满意度进行测评,收集客户意见,落实并跟进纠正措施和结果。

风险评估

配合数据中心运维SOP/MOP/EOP审核,如模拟一路市电断电、两路市电断电、ATS切换、断路器跳闸、柴油发电机房日常开机、冷机直供模式、板换操作、精密配电柜操作等流程。不符合设计原则和规范,影响功能、容量、冗余要求的予以修正。

参与日常运维工作中发现的技术问题,为进一步提高数据中心基础设施运维质量而制定和落实相应解决方案。针对监控、巡检中发现的故障、报警等超过运维现有技术处理能力的,按照事件处理流程或通报机制要求,协助重大风险评估,提供解决措施,理论归纳后予以标准化输出。

重大故障及技改方案支撑

运维方面,对于数据中心发生的重大故障,点诺提供高级运维工程师或技术人员的现场支持。技术方面,重点支持机房涉及到功能、容量、冗余调整的技术改造需求。从建筑平面规划,电量、冷量冗余,及现有机房业务影响,系统可维护性,施工可行性等方面综合考虑,提供技术改造方案、施工图纸、工程量清单,设备采购技术规格书等。若涉及变更服务,需配合运维提交详细的变更方案供客户提前审核。

机房维护管理人员定期对机房电气设备和空调的运行情况进行总体评估,对接近阈值的参数提前进行评估和预警,对运维提出的性能容量优化相关的建议,更新置换方案等提供审核评估意见。