2024 年 11 月,我接到一个紧急电话。一家县级二甲医院的核心 HIS 服务器——一台已经运行了 7 年的 Dell PowerEdge R740——在周三下午突然无法启动。距离上次正常关机已经过去了 317 天。

这不是一个复杂的技术故障,但它背后暴露的问题,值得每一个 CIO、IT 负责人认真想一想。

故障经过

周三 14:20,医院信息科接到护士站报修:HIS 系统无法登录。信息科重启服务器后,还是点不亮。换成冗余节点,同样无法启动。两台服务器在 48 小时内相继出现硬件故障。

现场检查发现:

这意味着:没有备件、没有厂商支持热线、没有驻场工程师。全院的业务——挂号、收费、药房、医嘱、检验——全部停摆。

48 小时的紧急处置

我到现场时的任务其实不复杂,但每一步都因为缺乏备件而格外漫长:

第一阶段(0-4 小时):紧急定位 + 调备件

修复主服务器的 RAID 卡电池,恢复逻辑卷。万幸数据盘没有真正的物理损坏,只是 RAID 卡掉缓存导致的元数据异常。

但这步操作需要重启服务器——让问题复杂化了——重启后备用机的两块黄灯硬盘彻底下线,RAID 降级到单盘。

第二阶段(4-20 小时):找备件

这是最痛苦的部分。Dell 原厂下单标准交期 3-5 工作日,等不起。信息科打了 20 多通电话,在本地 IT 供应商仓库里翻到了兼容电源和硬盘。第二天凌晨,备件到位。

第三阶段(20-34 小时):修复备用机 + 恢复业务

换电源、换硬盘、重建 RAID、恢复数据。备用机恢复后,先让 HIS 跑起来,挂号窗口重新开放。

整个过程中,医院启用了应急预案:门诊手工开单、药房手工拿药、收费窗口手工记账。不算其他隐形成本,仅手工挂号导致的排队长龙,就给医院在本地造成了不小的舆论压力。

第四阶段(34-48 小时):主服务器修复 + 双机恢复

主服务器 RAID 卡恢复正常,系统启动成功。同步数据后双机恢复,所有业务回到正常模式。

📊 本次事故的隐形损失(不完全统计):
• 门诊停诊时间:约 34 小时
• 住院部无法开医嘱:约 14 小时
• HIS 数据库无冗余运行:约 20 小时(备用机单节点扛着)
• 信息科全员加班:3 人 × 48 小时
• 外部紧急技术支持费用:仅备件加急 + 人工 ≈ 1.8 万元
• 品牌声誉损失:无法量化

维保过期:省了 3 万,赔了 30 万

核心问题来了:为什么维保过期不续?

信息科科长给我看了一份 2023 年的采购审批单——两台 R740 续保一年报价 3.1 万元(含 4 小时上门 + 备件更换)。院长审批意见栏写着:”设备运行正常,暂缓。”

而这次事故的直接经济损失:备件费 1 万 + 人工费 0.8 万 + 后续紧急采购新服务器 20 万 + 数据恢复服务 2 万。还不算停诊对医院营收和口碑的影响。

⚠️ 这不是个案。我接触到的客户中,超过一半的医院、学校、中小企业都有过维保到期的空窗期。原因几乎是一样的:觉得”设备还能用”、”预算不够”、”等坏了再说”。而这个决策,往往在设备真正坏了之后被证明是错误的。

维保该不该续?一个简单的评估框架

很多 IT 负责人问我:维保费用到底值不值?

我给他们一个很简单的评估方法:

评估维度 考虑续保 可以不续(降级) 建议换新
设备年龄 3 年以内 3-5 年 5 年以上
业务重要性 核心业务 边缘业务
备件市场 备件难找 备件充足(通用型设备) 厂商已停产
内部技术能力 无专职运维 有工程师+备件库
预算对比 维保费 < 宕机损失 维保费 > 宕机损失 维保费接近换新价

简单来说:核心业务 + 在保期内 = 必须续。边缘业务 + 超龄设备 = 考虑换新。中间的那部分,至少留一个第三方维保兜底。

给设备老化期企业的建议

一台服务器正常生命周期大约是 5 年。在这之后:

所以我给客户的建议一直是:

  1. 核心设备 ≥ 3 年必须续保。 这不是花销,是保险。一年几万块保几十万的业务不中断,性价比很高。
  2. 5 年以上设备开始做替换规划。 不是立刻换,而是纳入下年度预算,分批替换。
  3. 没有原厂维保,也要有第三方兜底。 很多第三方维保服务能覆盖原厂 80% 以上的需求,价格只有原厂的一半。
  4. 建立一个简易备件制度。 哪怕是几块兼容硬盘、一个通用电源放在机柜旁边,都能在关键时刻把停机时间从天缩短到小时。

回到开头那个案例:这家医院后来换了新的 R750 服务器,续了 3 年原厂维保,并在信息科机柜里常备了电源模块和 SAS 硬盘。

总花费不到 30 万。如果那 3.1 万的维保费当初没省下来,这 30 万也许根本不用花。

维保修的不是设备,是业务的连续性。有兴趣交流设备维保方案的,欢迎联系。