医院 HIS 系统宕机 48 小时复盘：服务器维保决策的代价

2024 年 11 月，我接到一个紧急电话。一家县级二甲医院的核心 HIS 服务器——一台已经运行了 7 年的 Dell PowerEdge R740——在周三下午突然无法启动。距离上次正常关机已经过去了 317 天。

这不是一个复杂的技术故障，但它背后暴露的问题，值得每一个 CIO、IT 负责人认真想一想。

故障经过

周三 14:20，医院信息科接到护士站报修：HIS 系统无法登录。信息科重启服务器后，还是点不亮。换成冗余节点，同样无法启动。两台服务器在 48 小时内相继出现硬件故障。

现场检查发现：

主服务器： RAID 卡电池耗尽，缓存数据丢失导致逻辑卷无法挂载
备用服务器： 电源模块故障 + 两块 SAS 硬盘报黄灯（故障风险未及时处理）
两台设备的原厂维保在 2023 年底都已到期，未续保

这意味着：没有备件、没有厂商支持热线、没有驻场工程师。全院的业务——挂号、收费、药房、医嘱、检验——全部停摆。

48 小时的紧急处置

我到现场时的任务其实不复杂，但每一步都因为缺乏备件而格外漫长：

第一阶段（0-4 小时）：紧急定位 + 调备件

修复主服务器的 RAID 卡电池，恢复逻辑卷。万幸数据盘没有真正的物理损坏，只是 RAID 卡掉缓存导致的元数据异常。

但这步操作需要重启服务器——让问题复杂化了——重启后备用机的两块黄灯硬盘彻底下线，RAID 降级到单盘。

第二阶段（4-20 小时）：找备件

这是最痛苦的部分。Dell 原厂下单标准交期 3-5 工作日，等不起。信息科打了 20 多通电话，在本地 IT 供应商仓库里翻到了兼容电源和硬盘。第二天凌晨，备件到位。

第三阶段（20-34 小时）：修复备用机 + 恢复业务

换电源、换硬盘、重建 RAID、恢复数据。备用机恢复后，先让 HIS 跑起来，挂号窗口重新开放。

整个过程中，医院启用了应急预案：门诊手工开单、药房手工拿药、收费窗口手工记账。不算其他隐形成本，仅手工挂号导致的排队长龙，就给医院在本地造成了不小的舆论压力。

第四阶段（34-48 小时）：主服务器修复 + 双机恢复

主服务器 RAID 卡恢复正常，系统启动成功。同步数据后双机恢复，所有业务回到正常模式。

📊 本次事故的隐形损失（不完全统计）：
• 门诊停诊时间：约 34 小时
• 住院部无法开医嘱：约 14 小时
• HIS 数据库无冗余运行：约 20 小时（备用机单节点扛着）
• 信息科全员加班：3 人 × 48 小时
• 外部紧急技术支持费用：仅备件加急 + 人工 ≈ 1.8 万元
• 品牌声誉损失：无法量化

维保过期：省了 3 万，赔了 30 万

核心问题来了：为什么维保过期不续？

信息科科长给我看了一份 2023 年的采购审批单——两台 R740 续保一年报价 3.1 万元（含 4 小时上门 + 备件更换）。院长审批意见栏写着：”设备运行正常，暂缓。”

而这次事故的直接经济损失：备件费 1 万 + 人工费 0.8 万 + 后续紧急采购新服务器 20 万 + 数据恢复服务 2 万。还不算停诊对医院营收和口碑的影响。

⚠️ 这不是个案。我接触到的客户中，超过一半的医院、学校、中小企业都有过维保到期的空窗期。原因几乎是一样的：觉得”设备还能用”、”预算不够”、”等坏了再说”。而这个决策，往往在设备真正坏了之后被证明是错误的。

维保该不该续？一个简单的评估框架

很多 IT 负责人问我：维保费用到底值不值？

我给他们一个很简单的评估方法：

评估维度	考虑续保	可以不续（降级）	建议换新
设备年龄	3 年以内	3-5 年	5 年以上
业务重要性	核心业务	边缘业务	—
备件市场	备件难找	备件充足（通用型设备）	厂商已停产
内部技术能力	无专职运维	有工程师+备件库	—
预算对比	维保费 < 宕机损失	维保费 > 宕机损失	维保费接近换新价

简单来说：核心业务 + 在保期内 = 必须续。边缘业务 + 超龄设备 = 考虑换新。中间的那部分，至少留一个第三方维保兜底。

给设备老化期企业的建议

一台服务器正常生命周期大约是 5 年。在这之后：

性能开始落后（新的操作系统/数据库版本可能不再支持）
硬件故障率逐年上升
原厂备件逐渐停产，坏了只能找二手市场
IT 审计时会成为合规风险

所以我给客户的建议一直是：

核心设备 ≥ 3 年必须续保。 这不是花销，是保险。一年几万块保几十万的业务不中断，性价比很高。
5 年以上设备开始做替换规划。 不是立刻换，而是纳入下年度预算，分批替换。
没有原厂维保，也要有第三方兜底。 很多第三方维保服务能覆盖原厂 80% 以上的需求，价格只有原厂的一半。
建立一个简易备件制度。 哪怕是几块兼容硬盘、一个通用电源放在机柜旁边，都能在关键时刻把停机时间从天缩短到小时。

回到开头那个案例：这家医院后来换了新的 R750 服务器，续了 3 年原厂维保，并在信息科机柜里常备了电源模块和 SAS 硬盘。

总花费不到 30 万。如果那 3.1 万的维保费当初没省下来，这 30 万也许根本不用花。

王康禄