导语
在临床诊疗中,心电图(ECG)是筛查心脏疾病的基础工具,而 AI 技术的加入本应让诊断更高效 —— 但现实是,FDA 批准的心电图深度学习算法,在筛查肥厚型心肌病(HCM)时,原始风险提示的阳性预测值(PPV)竟只有 10.9%。这意味着每 10 个被标记为 “高风险” 的患者中,仅 1 人真正患病,不仅增加临床工作量,还可能引发患者不必要的焦虑。发表在《NEJM AI》(2025 年第 2 卷第 5 期)的一项前瞻性研究,为解决这一问题提供了关键方案。来自 Mount Sinai 医学中心等机构的团队发现,通过对 AI 算法输出的风险评分进行 “校准”,可让高风险患者的诊断准确性大幅提升,最高 PPV 甚至能达到 80%(图1)。

图1 校准概率评分的前瞻性验证及概率评分排序的影响
一、为何 FDA 批准的 AI 算法,临床用起来 “不准”?
Part.1
肥厚型心肌病(HCM)是一种常见的遗传性心脏病,人群患病率约 1/200,部分患者可能因诊断延迟错过干预时机。为提高筛查效率,FDA 已批准多款基于心电图的深度学习(DL)算法,可自动标记高风险患者,但这些 “开箱即用” 的算法,在真实临床场景中却面临两大难题:
原始评分难解读:AI 输出的风险值是连续数据,但未与真实患病概率挂钩。比如某患者评分 0.9,医生无法直接判断这代表 “90% 概率患病” 还是 “只是相对风险高”,难以精准沟通和决策。
阳性预测值过低:研究团队对 2023 年 3 月至 2024 年 1 月期间,Mount Sinai 医疗系统内 70688 例心电图数据进行分析,发现 AI 共标记 1522 例 “高风险患者”,但经心内科医生结合病历、影像学检查复核后,仅 166 例确诊 HCM,原始 PPV 仅 10.9%。

图2原始模型、未校准模型和校准模型的PPV校准条形图
二、关键突破:给 AI 评分 “校准”,让数据贴合临床
Part.2
为解决上述问题,研究团队采用 “Platt 缩放” 方法,对 AI 输出的原始评分进行调整。具体流程如下:
数据拆分:将 1522 例高风险患者随机分为两组(各约 760 例),一组用于建立校准模型,一组用于验证效果;
模型训练:以 AI 原始评分为 “输入变量”,医生确诊的 HCM 状态(阳性 / 阴性)为 “结果变量”,训练逻辑回归模型,将原始评分转化为 “校准后患病概率”;
效果验证:通过 Brier 评分和校准误差评估准确性。
结果显示,校准后的 AI 模型表现显著提升:
未校准模型的 Brier 评分为 0.73,校准误差 0.81;校准后 Brier 评分降至 0.08,校准误差仅 0.03,符合 “优秀校准模型” 标准;
校准概率≥0.8 的患者,PPV 达 100%;概率在 0.7-0.8 区间时,PPV 为 67%;即便是 0.5-0.6 区间,PPV 也有 57%,远超原始 10.9% 的水平。

图3概率排序和时间排序对HCM确诊概率的影响
三、临床价值:排序联合校准,解决 “警报疲劳”
Part.3
除了提升准确性,研究还发现 “校准评分结合风险排序” 可优化临床 工作流程。此前,AI 警报按 “时间顺序” 推送给医生,前 10 例患者的 PPV 仅 20%;而按 “校准后评分从高到低” 排序后:
前 5 例高风险患者的 PPV 升至 80%;
前 10 例高风险患者的 PPV 升至 70%。
临床意义:心内科医生日常需处理大量警报,按校准评分排序可优先关注 “真正高风险” 患者,减少 “无效警报” 带来的疲劳,同时避免漏诊关键病例。

图4未校准和校准模型排序对患者病例排序的并置
研究还通过 GradCAM 技术,揭示了 AI 判断的 “依据”——QRS 波群是其识别 HCM 的核心特征,尤其在左束支传导阻滞患者中,左心室除极异常是关键判断指标,这与 HCM 的病理生理机制完全吻合,进一步验证了 AI 模型的合理性。

图5引导梯度加权类激活映射
四、注意事项:校准不是 “万能药”,这些问题仍需关注
Part.4
尽管成果显著,研究团队也指出了局限性:
阴性预测值(NPV)下降:提升 PPV 的同时,NPV 可能降低,即 “低校准评分患者” 仍有小概率患病,不能直接排除诊断;
需本地校准:本次研究基于单一医疗系统数据,不同地区、不同人群的 HCM 患病率可能存在差异,需针对当地数据进行 “本地化校准”;
缺乏长期随访:研究未评估校准模型对患者长期预后的影响,需进一步验证。
五、研究总结:AI 诊断的 “下一站”,是 “精准解读” 而非 “单纯输出”
Part.5
这项研究为 AI 在心血管疾病诊断中的应用提供了重要启示:FDA 批准的 AI 算法是 “基础工具”,但需结合真实临床数据进行 “本地化校准”,才能真正发挥价值。未来,随着更多医疗中心加入类似研究,或许能建立 “标准化校准流程”,让心电图 AI 不仅 “能识别风险”,更 “能说清风险”,为 HCM 等慢性病的早诊早治提供有力支持。
对于临床医生而言,这篇研究提醒我们:AI 不是 “替代者”,而是 “合作者”—— 通过优化 AI 输出的解读方式,可让技术更贴合临床需求;对于患者而言,若收到 AI 心电图高风险提示,不必过度焦虑,医生会结合校准评分和进一步检查,给出更精准的判断。
参考文献:Lampert J, Bhatt D L, Vaid A, et al. Calibration of ECG-based deep-learning algorithm scores for patients flagged as high risk for hypertrophic cardiomyopathy. NEJM AI. 2025, 2(5): AIoa2400421.
