2024 年 11 月,我接到一个紧急电话。一家县级二甲医院的核心 HIS 服务器——一台已经运行了 7 年的 Dell PowerEdge R740——在周三下午突然无法启动。距离上次正常关机已经过去了 317 天。
这不是一个复杂的技术故障,但它背后暴露的问题,值得每一个 CIO、IT 负责人认真想一想。
故障经过
周三 14:20,医院信息科接到护士站报修:HIS 系统无法登录。信息科重启服务器后,还是点不亮。换成冗余节点,同样无法启动。两台服务器在 48 小时内相继出现硬件故障。
现场检查发现:
- 主服务器: RAID 卡电池耗尽,缓存数据丢失导致逻辑卷无法挂载
- 备用服务器: 电源模块故障 + 两块 SAS 硬盘报黄灯(故障风险未及时处理)
- 两台设备的原厂维保在 2023 年底都已到期,未续保
这意味着:没有备件、没有厂商支持热线、没有驻场工程师。全院的业务——挂号、收费、药房、医嘱、检验——全部停摆。
48 小时的紧急处置
我到现场时的任务其实不复杂,但每一步都因为缺乏备件而格外漫长:
第一阶段(0-4 小时):紧急定位 + 调备件
修复主服务器的 RAID 卡电池,恢复逻辑卷。万幸数据盘没有真正的物理损坏,只是 RAID 卡掉缓存导致的元数据异常。
但这步操作需要重启服务器——让问题复杂化了——重启后备用机的两块黄灯硬盘彻底下线,RAID 降级到单盘。
第二阶段(4-20 小时):找备件
这是最痛苦的部分。Dell 原厂下单标准交期 3-5 工作日,等不起。信息科打了 20 多通电话,在本地 IT 供应商仓库里翻到了兼容电源和硬盘。第二天凌晨,备件到位。
第三阶段(20-34 小时):修复备用机 + 恢复业务
换电源、换硬盘、重建 RAID、恢复数据。备用机恢复后,先让 HIS 跑起来,挂号窗口重新开放。
整个过程中,医院启用了应急预案:门诊手工开单、药房手工拿药、收费窗口手工记账。不算其他隐形成本,仅手工挂号导致的排队长龙,就给医院在本地造成了不小的舆论压力。
第四阶段(34-48 小时):主服务器修复 + 双机恢复
主服务器 RAID 卡恢复正常,系统启动成功。同步数据后双机恢复,所有业务回到正常模式。
• 门诊停诊时间:约 34 小时
• 住院部无法开医嘱:约 14 小时
• HIS 数据库无冗余运行:约 20 小时(备用机单节点扛着)
• 信息科全员加班:3 人 × 48 小时
• 外部紧急技术支持费用:仅备件加急 + 人工 ≈ 1.8 万元
• 品牌声誉损失:无法量化
维保过期:省了 3 万,赔了 30 万
核心问题来了:为什么维保过期不续?
信息科科长给我看了一份 2023 年的采购审批单——两台 R740 续保一年报价 3.1 万元(含 4 小时上门 + 备件更换)。院长审批意见栏写着:”设备运行正常,暂缓。”
而这次事故的直接经济损失:备件费 1 万 + 人工费 0.8 万 + 后续紧急采购新服务器 20 万 + 数据恢复服务 2 万。还不算停诊对医院营收和口碑的影响。
维保该不该续?一个简单的评估框架
很多 IT 负责人问我:维保费用到底值不值?
我给他们一个很简单的评估方法:
| 评估维度 | 考虑续保 | 可以不续(降级) | 建议换新 |
|---|---|---|---|
| 设备年龄 | 3 年以内 | 3-5 年 | 5 年以上 |
| 业务重要性 | 核心业务 | 边缘业务 | — |
| 备件市场 | 备件难找 | 备件充足(通用型设备) | 厂商已停产 |
| 内部技术能力 | 无专职运维 | 有工程师+备件库 | — |
| 预算对比 | 维保费 < 宕机损失 | 维保费 > 宕机损失 | 维保费接近换新价 |
简单来说:核心业务 + 在保期内 = 必须续。边缘业务 + 超龄设备 = 考虑换新。中间的那部分,至少留一个第三方维保兜底。
给设备老化期企业的建议
一台服务器正常生命周期大约是 5 年。在这之后:
- 性能开始落后(新的操作系统/数据库版本可能不再支持)
- 硬件故障率逐年上升
- 原厂备件逐渐停产,坏了只能找二手市场
- IT 审计时会成为合规风险
所以我给客户的建议一直是:
- 核心设备 ≥ 3 年必须续保。 这不是花销,是保险。一年几万块保几十万的业务不中断,性价比很高。
- 5 年以上设备开始做替换规划。 不是立刻换,而是纳入下年度预算,分批替换。
- 没有原厂维保,也要有第三方兜底。 很多第三方维保服务能覆盖原厂 80% 以上的需求,价格只有原厂的一半。
- 建立一个简易备件制度。 哪怕是几块兼容硬盘、一个通用电源放在机柜旁边,都能在关键时刻把停机时间从天缩短到小时。
回到开头那个案例:这家医院后来换了新的 R750 服务器,续了 3 年原厂维保,并在信息科机柜里常备了电源模块和 SAS 硬盘。
总花费不到 30 万。如果那 3.1 万的维保费当初没省下来,这 30 万也许根本不用花。
维保修的不是设备,是业务的连续性。有兴趣交流设备维保方案的,欢迎联系。