前沿科技
本系统评价和荟萃分析已在 PROSPERO (CRD42024549601) 注册。从建库到 2025 年 2 月检索了 Embase、Medline、Cochrane 对照试验中心数据库和 CINAHL。评估 AI 在胎儿 CHD 产前检测中的性能的研究符合纳入条件,而侧重于妊娠 16 周前应用 AI 或使用三维或四维超声的研究被排除在外。使用随机效应方法获得合并的灵敏度和特异性,并使用 Freeman-Tukey 反正弦平方根变换获得合并比例。用 I 评估异质性2统计学。分别使用 QUADAS-2 和 TRIPOD+AI 评估偏倚风险和对报告标准的依从性。使用 Deek 检验评估发表偏倚风险,并使用 GRADE 方法评估结局的证据质量。
纳入了 15 项研究,其中 14 项开发和评估了模型,1 项外部评估了先前训练的模型。在心脏筛查或 30.121 名胎儿的胎儿超声心动图期间获得的图像和视频用于培训、验证和测试。对于将心脏分类为正常或异常的二元任务,AI 模型的汇总灵敏度为 0.89(95% CI 0.83-0.93,I2= 77.92%),特异性为 0.91(95% CI 0.84–0.95,I2= 77.92%)。亚组分析显示,与针对特定心脏异常的模型相比,在各种冠心病上测试的模型表现出较低的敏感性(0.85;95% CI 0.75-0.91 vs 0.92;95% CI 0.87-0.96),而特异性仍然相当(0.90;95% CI 0.79-0.96 vs 0.91;95% CI 0.81-0.97)。总体而言,AI 模型的表现优于专业知识较低的作员,几乎与专家相当;然而,人类对照组 (中位数 6 名临床医生,IQR 3-10) 通常较小且无盲法。异质性的相关来源是收集的心脏视图类型、不同数据集中 CHD 的患病率以及检查的 CHD 类型。偏倚风险为中高,对报告标准的依从性较低(18/51 TRIPOD+AI 项目中为 >70%)。发表偏倚风险无统计学意义 (Deek 检验 p = 0.474)。
这些发现表明,AI 模型的性能优于专业知识较低的临床医生,但由于偏倚风险高和异质性来源,必须谨慎解释这一点。
这项研究得到 InnoHK 资助的香港心脑血管健康工程中心 (COCHE) 项目 2.1 (早期心血管风险和胎儿超声心动图) 的部分支持。ATP 和 JAN 得到了英国国家健康与护理研究所 (NIHR) 牛津生物医学研究中心 (BRC) 的支持。
情境研究
使用超声进行产前检测先天性心脏缺陷 (CHD) 的现有证据表明,临床实践中的检出率较低;注意到使用人工智能 (AI) 改进检测的现场研究。在本研究之前,尚未进行荟萃分析来评估 AI 诊断性能对产前 CHD 检测的汇总估计。因此,进行了一项重点分析,以检查 AI 模型检测 CHD 的价值。检索了包括 Embase、Medline、Cochrane 对照试验中心数据库和 CINAHL 在内的数据库,检索时间从建库到 2025 年 2 月 14 日。纳入了涉及 AI 模型应用于妊娠 16 至 40 周期间 2D 超声心脏筛查或胎儿超声心动图的研究。现有证据表明,AI 模型在识别正常心脏结构和进行分割方面表现良好,但在对正常和异常胎心进行分类或检测特定 CHD 方面可用的数据有限。
本研究系统评价和分析了人工智能驱动的产前心脏超声检测 CHD 的诊断准确性,提供了汇总的敏感性和特异性估计值。这是第一篇将 AI 模型诊断性能与临床医生在真实临床环境中进行比较并评估 AI 模型对临床实施的准备情况的综述。研究结果证明了数据集异质性的重要来源、不同研究之间心脏视图和 CHD 类型的差异。我们强调了当前 AI 模型的局限性和优势,包括 AI 模型可能胜过经验不足的作员,同时在某些情况下实现接近专家级的准确性。
虽然人工智能模型具有改善产前 CHD 检测的潜力,但其临床实施面临一些挑战。尽管它们可以提高检测的准确性,但目前缺乏将 AI 模型整合到辅助 AI 工具的常规实践中的数据。需要前瞻性研究,特别是在最相关的社区筛查环境和资源有限的环境中。
在全球范围内,婴儿死亡的主要原因依次是早产相关疾病、不良产时事件和先天性畸形。1在后者中,先天性心脏缺陷 (CHD) 是出生时最常见的结构异常,影响近 0.8% 的活产婴儿。2,3除了常见之外,CHD 还与高死亡率和发病率相关;这种高患病率和高不良结局率的结合使它们成为先天性异常导致婴儿死亡的主要原因。2–4
产前诊断为严重 CHD 的婴儿,即导管依赖性循环的婴儿,比出生后发现的婴儿具有更好的出生后结局和存活率。5在子宫内而不是出生后检测到的患有严重缺陷的婴儿,例如主动脉缩窄或大动脉转位,心脏手术前的死亡率和术后生存率更有利(术前死亡率分别为 0.3% 和 3.0%,术后生存率分别为 99.3% 和 97.0%)。5因此,鉴于产前检测的重要性,大多数高收入国家 (HIC) 的孕妇都会接受 CHD 筛查,作为常规孕中期解剖超声扫描的一部分。6–8这允许最佳的围产期管理,例如在有专业心脏支持的病房分娩。9因此,为实现新生儿血流动力学稳定的计划管理可以预防缺氧、酸中毒和相关新生儿发病率,减少通气时间和神经损伤的风险。10
尽管产前检测的重要性显而易见,但来自 HIC 的数据表明,普遍心脏筛查的政策仍然未能识别出近一半的 CHD 患者。11这些努力依赖于方案化筛查的实施,12并受益于超声成像清晰度的提高13;然而,常规心脏评估的筛查性能仍然很差,尤其是在服务不足的环境中,资源限制可能导致缺乏经验丰富的作人员。转诊进行正式的胎儿超声心动图检查(由亚专科胎儿心脏病专家对心脏进行的全面超声评估)具有很高的诊断性能,14但并非所有孕妇都不可能:只有大约 10% 的胎儿 CHD 高危个体在筛查检查后被转诊进行此检查,该比率基于此类专家的可用性和成本效益。15,16
冠心病检测的重要性、当前筛查的局限性以及应用于临床超声的基于人工智能 (AI) 的模型的出现,自然而然地导致了一个问题:人工智能模型是否可以作为改善胎儿冠心病产前诊断的工具?17初步数据很有希望,AI 成功地实现了正常心脏视图的自动识别和特定心脏结构的分割,与人类作员达成了良好的协议。18较少的研究检查了更具临床价值的任务——调查正常心脏与异常心脏的正确产前分类,或特定 CHD 的识别。
本研究的目的是系统回顾当前对 AI 驱动的产前心脏超声诊断性能的知识,并将其与临床人体性能进行比较,以便根据偏倚风险和对 TRIPOD+AI 报告标准的遵守情况,评估已发表工作的潜在临床实施准备情况。19
本系统评价和荟萃分析是使用 Cochrane 干预系统评价手册的指导进行的,并遵循流行病学观察性研究荟萃分析 (MOOSE) 小组提出的先验设计方案。20,21根据系统评价和荟萃分析的首选报告项目 (PRISMA) 指南报告结果,22并且 PRISMA 检查表已完成并作为补充材料提供。22在开始本综述之前,制定了一项研究方案并在 PROSPERO 国际系统综述前瞻性注册库 (CRD42024549601) 中注册。
Embase 和 Medline 分别在 OVID [1974 年至今和 1946 年至今] 上进行了电子检索,而 Cochrane 对照试验中心数据库 [第 7 期,共 12 期,2024 年 7 月] 和 CINAHL [1981 年至今] 在其网站上,从建库到 2024 年 7 月 4 日,使用基于附录中报告的搜索的自由文本关键字和主题词.所有数据库均采用相似但经过调整的检索策略进行单独检索。在手稿修订过程中,检索更新截止到 2025 年 2 月 14 日,以确保纳入最新证据。在数据库中进行的搜索没有限制,因为之后使用方案中规定的纳入和排除标准应用了任何限制。未使用已发布的搜索筛选器。所有检索策略均由信息专员 (CS) 设计,仅用于本系统综述,以前未在其他地方使用过。检索策略在数据库上运行之前由主要作者审查和批准。为了进行重复数据删除,所有记录都上传到 EndNote 21,并仔细检查每组重复结果,以确保不会删除错误结果。
两名独立评价员 (E.D. 和 O.P.) 通过首先评价检索结果的标题和摘要来确定可能相关的研究,从而分阶段选择研究。随后对全文文章进行评估,以确定其是否符合纳入标准。手动筛选所有合格研究的参考文献列表,以查找初始电子检索未识别的其他引文。通过两位评价员之间的共识或与第三位评价员 (A.T.P.) 协商,达成关于纳入和排除研究的协议。文献综述、会议摘要、少于 5 个主题的病例报告、社论、信件和个人通信被排除在外。
由于我们的系统综述试图了解大多数医疗保健机构的应用,其中使用二维 (2D) 超声围绕孕中期解剖扫描进行常规心脏评估,因此我们做出了先验决定,纳入那些报告了 AI 在妊娠 16 至 40 周的 2D 超声心脏筛查或胎儿超声心动图中的应用的研究。无限制的标准应用于不同的 AI 机器学习方法,我们考虑将 B 模式或彩色多普勒的静止图像以及视频或短 “扫描” 作为数据输入。同样,对成像平面 (横向或矢状) 也没有限制。前瞻性和回顾性观察性研究,评估具有任何既往风险水平的妊娠,包括单胎或多胎妊娠,以及在任何医疗保健环境中。仅关注 16 周前 AI 应用或 3D/4D 超声的研究被排除在外,例如常规筛查中不常用的时空图像相关 (STIC) 技术。此外,不包括专注于正常心脏结构的 AI 评估或仅进行分割的研究,而不报告 CHD 的诊断性能(表 1)。检索策略没有语言限制,允许纳入任何语言的研究。我们尽一切努力确定来自同一研究小组的出版物,这些出版物共享相同 CHD 的筛选对象。在这种情况下,仅包括被认为与本综述目标最相关的研究,或具有最大队列的研究(表 1)。文献检索的流程图如图 1 所示。
图 1 PRISMA 流程图;改编自 PRISMA 2020 清单22;AI,人工智能;CHD,先天性心脏缺陷;美国,超声。
表 1
根据 PICOS 标准的纳入和排除标准。
AI,人工智能;CHD,先天性心脏缺陷;STIC,时空图像相关性;N/A,不适用;美国,超声;2D,二维;3D/4D、三维/四维。
对于每项研究,两名独立评价员(E.D. 和 B.S.)提取了基本资料作者的姓名;出版年份;进行研究的国家,被归类为 HIC 或中低收入国家 (LMIC)23;研究设计;使用的 AI 模型;评估的临床任务;批注的类型;存在培训、验证和测试阶段;心脏评估的类型(心脏筛查或专业胎儿超声心动图,或两者兼而有之);心脏超声检查时的胎龄 (GA);以及进行研究的医疗保健环境。还提取了有关 AI 模型开发和测试的详细信息,包括用于训练、验证和测试的数据数量,分为正常情况和异常情况。还记录了所使用的心脏视图,包括心脏位置、四腔视图 (4CV)、左心室和右心室流出道 (分别为 LVOT 和 RVOT)、三血管 (3VV) 和三血管气管 (3VT) 视图和矢状位视图的评估;图像、视频、心脏生物识别和多普勒的使用,包括彩色多普勒和脉冲波多普勒。最后,我们提取了有关为 AI 模型和临床医生提供的诊断准确性指标的数据,以及所用数据集中 CHD 的患病率。
指标测试是 AI 模型,参考标准是胎儿心脏病学专家的产前诊断、产后或尸检确认。由于只有一项研究提供了真阳性 (TP)、假阳性 (FP)、假阴性 (FN) 和真阴性 (TN) 病例,因此进行了诊断测试准确性荟萃分析,创建了 2 × 2 个表格,其中 TP、FP、FN、TN 使用纳入的病例数计算、研究人群中 CHD 的患病率以及每项研究中报告的敏感性和特异性。在报告多个模型性能的研究中,通过共识选择具有最高特异性的模型,因为这最符合国家产前筛查计划的优先事项,以最大限度地减少假阳性,同时保持诊断准确性。主要结果是 AI 模型对正常心脏和异常心脏的分类性能。进行了亚组分析,以评估 AI 模型在测试各种 CHD 或单个心脏缺陷时的性能。由于数据有限,无法对按胎龄、筛查环境与胎儿心脏病学单位以及特定心脏异常的 AI 性能进行预期的亚组和 meta 回归分析。使用随机效应方法提供合并敏感性和合并特异性以及 95% 置信区间 (95% CI) 并应用 0.5 连续性校正。我们进行了留一法敏感性分析,以评估结果的稳健性以及任何单一研究对整体效应量的潜在影响。具体来说,重复进行荟萃分析,一次排除一项研究,并重新计算每次迭代的合并敏感性和特异性。此外,我们进行了二次敏感性分析,其中我们删除了多项被确定为对报告指南的依从性低或被认为存在高偏倚风险的研究。这使我们能够检查这些研究是否对总体结果有不成比例的影响。Cochrane RevMan5 用于创建汇总 ROC 曲线 (sROC),分析正常心脏与异常心脏的 AI 分类任务。还评估了单个心脏缺陷的特定 sROCs 或按共享的临床或超声检查结果分组。例如,主动脉缩窄与导管依赖性 CHD 和左心发育不良综合征相结合进行评估。在随机效应模型下,使用 Freeman-Tukey 反正弦平方根变换获得具有池化比例的数据分区估计。Freeman-Tukey 变换用于稳定方差并归一化比例分布。该方法在比例荟萃分析中得到广泛应用,因为它确保了具有极端比例的研究的平衡贡献,并在随机效应模型下提供了稳健的综合。24用 I 评估异质性2统计学。为了评估发表偏倚的风险,我们进行了Deek's检验,这是诊断准确性meta分析中推荐的检验,以评估小规模研究效应的存在。p 值 <0.05 表明存在显著的不对称性,表明潜在的发表偏倚。所有分析均使用德克萨斯州大学城 STATA 18 中的“metadta”、“metandi”和“metan”软件包进行:StataCorp LLC。
对于每项研究,两名独立评价员 (E.D. 和 B.S.) 独立评估了对报告标准的依从性和偏倚风险。使用 Cochrane RevMan5 根据诊断准确性研究质量评估 (QUADAS-2) 工具对所有纳入的研究进行偏倚风险评估。该工具评估四个关键领域的研究:患者选择、指标测试、参考标准和研究过程中的患者流量。最后一项被有意修改为数据流而不是患者。本综述中的每项研究都根据一系列信号问题被评为每个领域的低、高或不明确的偏倚风险,以及缺乏适用性。25
我们评估了以个体预后或诊断 + 人工智能 (TRIPOD+AI) 多变量预测模型的透明报告为指导的纳入研究的报告质量。19TRIPOD+AI 检查表是原始 TRIPOD 的更新版本,于 2024 年 4 月发布。尽管我们认识到纳入的研究是在引入 TRIPOD+AI 之前发表或提交发表的,但我们采用此版本是为了与其目标保持一致,即协调和标准化采用 AI 模型的研究的报告系统。TRIPOD+AI 包括 27 个项目,包括子项目在内,共 52 个点。由于我们的系统评价基于评估产后可能需要手术干预的 CHD 预测或诊断的研究,因此我们根据总共 51 个项目评估了这些研究,不包括一个涉及模型开发期间接受的治疗的项目(子项目 6c)。此外,我们评估了在单个中心进行的研究,共 49 个项目,不包括与多家医院的聚类数据相关的两个子项目 (12 d 和 23 b)。最后,一项对先前开发的 AI 模型进行外部测试的研究评估了 45 个评估项目。与之前使用原始 TRIPOD 版本的研究类似,研究是根据相对于可达到的总分的百分比进行评估的。26如果评分低于 50%,则研究被归类为低依从性。26此外,我们进一步定义了中等依从性,当分数在 50% 到 70% 之间时,以及超过 70% 的高依从性,承认与 TRIPOD 相比,TRIPOD+AI 包含更多的项目和子项目(+40%,52 对 37)。
使用 GRADE (Grading of Recommendations, Assessment, Development, and Evaluations) 方法进行 AI 诊断准确性分析,评估证据质量。评估是根据 GRADE 手册进行的,评估了五个关键领域:偏倚风险,使用 QUADAS-2 工具;不一致性,通过统计异质性 (I2) 和敏感性分析中合并估计值的稳定性;间接性,基于研究与真实世界人群之间的差异,AI 性能实时与回顾,以及数据集质量与真实临床环境相比;不精确,根据 CI 宽度进行敏感性和特异性估计;发表偏倚,使用 Deek 不对称检验评估(如适用)。根据手册,五个领域中任何一个领域的证据质量起始评级被降级。两名独立的评分者(E.D. 和 B.S.)评估了证据的质量,并通过讨论解决了差异。
这项研究是使用完全可公开访问的数据进行的,不涉及人类参与者的直接招募,因此不需要机构伦理委员会的批准。该方法符合公认的系统评价和荟萃分析报告标准,包括先前的方案注册和明确定义的检索和分析策略,以提高透明度。
该研究的资助者在研究设计、数据收集、分析或解释方面没有作用,也不参与论文的撰写。
包括文献更新的电子检索产生了 1.273 篇引用文献。在对标题和摘要进行审查后,对 62 篇出版物进行了全文审查,其中 15 项研究评估了人工智能超声对 30.121 名胎儿 CHD 的产前检测;所有检查均在 2020 年至 2024 年期间进行(图 1)。27–41 表 2 总结了纳入研究的特征。在这些研究中,没有随机对照试验,也没有关于诊断效果的前瞻性研究。12 项研究清楚地报告了数据收集方法:10 项研究仅使用回顾性数据,27,28,32–34,36–38,40,41一个使用前瞻性30另一项是前瞻性和回顾性病例。35在其余 3 项研究中,尚不清楚数据收集是回顾性还是前瞻性,29,31,39其中两个提到了选择退出设计,但没有进一步的细节。29,306项研究使用了同一国家内的多中心数据集28,29,31,35,39,40没有发现多中心国际研究。数据来自心脏筛查,34,40胎儿超声心动图 /27,32,33,36–38,41或两者兼而有之,28,354项研究没有报告心脏评估的类型。29–31,39八项研究使用了孕中期和孕晚期期间进行的心脏扫描数据。27,29–32,37,38,41大多数研究是在 HIC 中进行的,27–29,31,32,34–41中低收入国家只有 2 个。30,33此外,这些是在三级单位或大学医院进行的,27–33,35–39,41除了两个在社区筛查环境中。34,40
表 2
纳入研究的特点。
AI,人工智能;AVB,房室传导阻滞;AVSD,房室间隔缺损;CHD,先天性心脏缺陷;CoA,主动脉缩窄;CS,心脏筛查;DenseASPP, 密集的 Atrous 空间金字塔池化;DGACNN,基于判别器生成对抗网络 (GAN) 和 CNN 层的模型;FastFCN,快速全卷积网络;FE,胎儿超声心动图;GA, 胎龄;HIC,高收入国家;HLHS,左心发育不良综合征;HOCAD,分层在线对比异常检测;NR,未报告;PAC,房性早搏;PSPNet,金字塔场景解析网络;ST,窦性心动过速;TAPVC,完全异常肺静脉连接;VSD,室间隔缺损;YOLO,你只看一次。
5 项研究仅关注 4CV,27,30,32,36,387项研究使用了ISUOG推荐的所有标准轴视图,7,28,29,31,33,37,40,415 个考虑了矢状视图。33,35,40,41此外,9 项研究考虑了任何 CHD 的检测,而 6 项研究侧重于识别特定的心脏异常(补充表 S1),例如完全异常肺静脉连接、导管依赖性 CHD、左心发育不良综合征、房室和室间隔缺损以及主动脉缩窄。32,35–38,40,41只有一项研究评估了胎儿心律失常的 AI 分类。39
在 14 项研究中,数据集用于训练和测试 AI 模型,27–33,35–41而一项研究在外部测试了先前训练的算法。3411 项研究报告了 AI 模型与临床医生相比的性能,27,28,30–32,34–36,38,39,41 (补充表 S2)。我们分析中排除的研究和排除原因列在补充表 S3 中。
表 3 总结了与 AI 模型的开发和测试以及用于训练、验证和测试的数据分区相关的详细信息。六项研究报告了验证方法,其中三项使用拆分样本,可用数据集分为两组,一组用于开发模型,另一组用于验证模型,以及交叉验证。一项研究使用从筛选单位收集的数据,对不同国家/地区的先前训练模型进行了外部评估,其中 40% 的 CHD 未包含在数据集中,用于初始模型的开发。
研究(年) | N. 胎儿 | 训练 (正常) | 训练 (异常) | 验证 (正常) | 验证 (异常) | 测试(正常) | 检测(异常) | 心形景观 | 图像 | 视频 | 心脏生物识别技术 | 多 普 勒 | TRIPOD+AI 依照度 |
龚 202027 | 星期日 | 2.655 张图片 | 541 张图片 | 200 张图片 | 200 张图片 | 200 张图片a | 200 张图片a | 轴向视图: | X | ✓ | X | X | 低 (29.4%) |
阿尔瑙特 202128 | 5.867 | 69.841 张图像 | 102.974 张图片 | 星期日 | 星期日 | FETAL-125 | FETAL-125 | 轴向视图: Situs, 4CV, LVOT, RVOT, 3VV, 3VT (BCH-400 的轴向扫描) | ✓ | ✓ | ✓ | X | 高 (70.6%) |
小松 202129 | 363 | 668 个视频 | X | 10 个视频 | 10 个视频 | 42 个视频 | 42 个视频 | 从位置到 3VT 的轴向扫描 | X | ✓ | X | X | 中度 (54.9%) |
努尔曼尼 202230 | 76 | 157 张图片 | 812 张图像 | 星期日 | 星期日 | 测试患者 | 测试患者 | 轴向视图 | ✓ | X | X | X | 低 (44.9%) |
堺市 202231 | 160 | 292 个视频 | X | 6 个视频 | 6 个视频 | 20 个视频 | 20 个视频 | 从位置到 3VT 的轴向扫描 | X | ✓ | X | X | 中度 (56.9%) |
王 202232 | 319 | 492 张图像 | 48 张图片 | X | X | 82 张图片 | 20 张图片 | 轴向视图: | X | ✓ | ✓ | ✓ | 中度 (51.0%) |
张 202233 | 3.910 | 星期日 | 星期日 | 星期日 | 星期日 | 星期日 | 星期日 | 轴向和矢状视图: | 星期日 | 星期日 | ✓ | ✓ | 低 (42.8%) |
阿塔利 202334 | 108 | 以前接受过培训 (Arnaout 2021) | 以前接受过培训 (Arnaout 2021) | 42 个案例 (NR 图像数量) | 66 例 (NR 图像数量) | 先前测试过 (Arnaout 2021) | 先前测试过 (Arnaout 2021) | 轴向视图: | ✓ | X | X | X | 中度 (60%) |
唐风 202335 | 6.941 | 4.018 张图片 | 2.694 张图片 | 191 张图像 | 163 张图片 | 200 张图片 | 150 张图片 | 矢状视图: | ✓ | ✓ | X | X | 中度 (52.9%) |
天 202336 | 161 | 5.019 张图片 | 3.241 张图片 | 593 张图像 | 380 张图片 | 676 张图片 | 339 张图像 | 轴向视图: | ✓ | ✓ | X | X | 高 (75.5%) |
杨 202337 | 545 | 800 张图片 | 595 张图片 | 77 张图像 | 73 张图像 | CHD 测试集 | CHD 测试集 | 轴向视图: | ✓ | X | X | X | 低 (40.8%) |
天 202438 | 173 | 星期日 | 星期日 | 星期日 | 星期日 | 星期日 | 星期日 | 轴向视图: | X | ✓ | X | X | 低 (48.9%) |
杨 202439 | 3.850 | 5.407 张图片 | X | 1.797 张图片 | X | 1.840 张图片 | 508 张图片 | 左心室流入道和流出道中的 E、A、V 波 | ✓ | X | X | ✓ | 低 (33.3%) |
塔克索-维斯特 202440 | 7.373 | 星期日 | 星期日 | 星期日 | 星期日 | 星期日 | 星期日 | 轴向视图: | ✓ | ✓ | ✓ | X | 高 (78.4%) |
周 202441 | 275 | 96 张图像 | 126 张图片 | X | X | 21 张图片 | 35 张图片 | 轴向视图: | X | ✓ | ✓ | ✓ | 中度 (51.0%) |
表 3
用于 AI 模型开发和/或测试的协议。
图像被定义为用于数据收集的来源,而数据收集后从视频中提取的帧或图像(如果使用)在表格的部分中提到,提及用于训练、验证和测试的数据量。Ao,主动脉;CD,彩色多普勒;CHD,先天性心脏缺陷;FE,胎儿超声心动图;LVOT,左心室流出道;LV,左心室;NR,未报告;PWD,脉冲波多普勒;RVOT,右心室流出道;VSD,室间隔缺损;4CV,四腔视图;3VV,三腔体视图;3VT,三血管气管。
Gong 等人还使用了视频筛选测试数据集 1 和 2,分别占 51,542 和 67,000 个视频帧,用于视频的进一步注释和数据增强。表中仅报告了用于测试 CHD 分类的数据量。
从 15 项研究中,有 10 项研究的数据集来源是从视频中提取的 B 型图像或静止帧。27,28,30,32,34–41两项研究使用了从位置到 3VT 的电影扫描训练,异常扫描仅用于测试,而不用于训练。29,313项研究没有提到是否使用静态或电影记录进行训练、验证和测试。33,38,40训练、验证和测试 AI 模型的参与者人数中位数为 341 人(四分位距 [IQR] 160-4.399),总记录(图像、从视频和视频剪辑中提取的静止帧)的中位数为 2.687 (IQR 674-10.074)。5项研究调查了自动心脏生物测量的实施情况,28,32,33,40,41而多普勒数据被 4 项研究使用,其中 3 项研究使用脉冲波多普勒32,39,41和两个彩色多普勒。32,41
汇总比例显示,总体而言,75%(95% CI 58-88%,I2= 99.9%) 的数据用于训练,8% (95% CI 4–12%,I2= 99.4%) 进行验证,20% (95% CI 8–37%,I2= 99.9%)用于测试 AI 模型(表 4,补充图 S1-S6)。研究之间异质性的最突出来源是收集的心脏视图类型(补充表 S2)。
表 4
数据集分布和异质性摘要。
回顾性评估的 AI 模型性能与 11 项研究中临床医生的检测进行了比较,27,28,30–32,34–36,38,39,41其中一项使用真实世界筛查计划作为对照,363项研究使用了临床医生已经注释或标记的图像,9项研究比较了人工智能与临床医生在从收集的数据中获得的特定数据集上的表现(补充表S3)。人类对照组通常较小,中位数为 6 名临床医生 (IQR 3-10),并且未设盲,这意味着临床医生意识到任务并预期发现 CHD 的比例高于常规实践中通常看到的比例。3 名临床医生的中位数是心脏病专家 (IQR 2-8),据报道,7 名临床医生的中位数是超声医师、实习生或研究员 (IQR 4-16)。
异质性的一个相关来源是不同数据集中心脏异常的患病率不同,从 0.9%(与 CHD 的社区筛查水平患病率一致)到 30-60%(类似于转诊人群到胎儿心脏病科的频率)不等。
对于正常心脏与异常心脏的二元分类,合并敏感性和特异性为 0.89 (95% CI 0.83–0.93,I277.92%) 和 0.91 (95% CI 0.84–0.95, I277.92%)(图 2a,补充图 S7a 和 b)。对于评估使用正常心脏和所有 CHD 合并训练和测试的 AI 模型的研究,AUC 从 0.79 不等29至 0.9928汇总敏感性和特异性为 0.85 (95% CI 0.75–0.91,I276.27%)和 0.90(95% CI 0.79–0.96,I276.27%)(图 2a,补充图 S8a 和 b)。正如预期的那样,用最少的记录数训练的 AI 模型获得了最低的灵敏度和特异性,而收集的案例数最高时发现了最佳的准确性指标。28,30表 5 总结了留一法敏感性分析和排除具有高偏倚风险和低依从性 TRIPOD+AI 的研究。总体估计值在所有迭代中保持稳定,置信区间重叠,表明合并估计值的稳健性。
图 2 a(左)显示了使用各种 CHD 或特定心脏缺陷进行测试时,用于正常心脏和异常心脏 AI 分类的 sROC。b(右)显示了用于 AI 评估单个心脏缺陷的 sROC。CHDs,先天性心脏缺陷;TAPVC,完全性肺静脉异常连接;HLHS,左心发育不良综合征;AVSD,房室间隔缺损。
表 5
遗漏一法,排除具有高偏倚风险和低依从性 TRIPOD+AI 敏感性分析的研究。
我们还评估了针对特定心脏异常进行测试的模型;其中有 5 项研究报告了准确性指标,这些研究旨在检测总异常肺静脉连接、左心发育不良综合征、房室间隔缺损和主动脉缩窄。32,36,38,40,41汇总这些数据表明,报告的 AI 模型的总体敏感性和特异性为 0.92 (95% CI 0.87–0.96,I20.04%)和 0.91 (95% CI 0.81–0.97,I20.04%)(图 2a,补充图 S9a 和 9b)。更详细地说,一项研究开发了一种检测左心发育不良综合征的算法,在每胎儿分析中,该算法的敏感性和特异性分别达到 100% 和 94%。36为筛查房室间隔缺损而开发的模型实现了 86.8-100% 和 72.8-94.1% 的敏感性和特异性。38,41相反,对于主动脉缩窄,报告的敏感性和特异性分别为 90.4% 和 88.9%。40最后,AI 模型检测到总异常肺静脉回流,灵敏度和特异性分别为 94.7% 和 81.7%32 (图 2b,补充表 S3)。
总体而言,研究表明,AI 模型的表现优于不太专业的作员(例如研究员、初级超声医师、住院医师和实习生),但不如胎儿心脏病学专家准确。只有两项研究表明,如果 AI 辅助二进制输出(正常与异常),临床医生的表现会得到改善。
使用 QUADAS-2 的总体偏倚风险将 3 项研究在参考标准的适用性领域归类为高风险,2 项研究归类为患者选择(图 3)。其余研究的风险尚不清楚,主要涉及患者选择、指标测试和参考标准的实施或解释以及数据流。
图 3 QUADAS-2 评估。25
对于报告标准,在每项分析中,35% 的 TRIPOD+AI 项目 (18/51) 存在最佳依从性 (>70%)(图 4)。总体而言,纳入的研究坚持 TRIPOD+AI 项目,中位数为 53% (IQR 27-80%)。在每项研究分析中,3 项研究被评为高度依从性,6 项为中等,6 项为低(补充表 S3)。所有纳入的研究都在 TRIPOD+AI 检查表发布之前提交发表。然而,只有两项研究明确表示他们打算遵守发表时可用的报告标准,即 TRIPOD。40–42
图 4 TRIPOD+AI 评估,改编自 TRIPOD+AI 2024 检查表。19
使用 Deek 检验评估发表偏倚,表明该分析中没有统计学上显着的发表偏倚 (p = 0.474)。研究系数为 -6.20 (95% CI,-32.25 至 19.86;p = 0.582),表明研究规模和效应估计之间没有显着关系。总体而言,这些发现不支持小规模研究效应的存在,尽管纳入研究的数量有限可能会降低检测细微偏倚的统计能力。
应用 GRADE 的结果总结显示,主要结局和亚组分析的证据水平较低(补充表 S4)。
本系统评价和荟萃分析彻底分析了目前可用的 AI 文献,该文献应用于心脏缺陷的产前检测,与最近的标准一致,即 TRIPOD+AI。19AI 模型在正常心脏与异常心脏分类方面的性能实现了较高的合并敏感性和特异性,当使用特定心脏缺陷而不是各种 CHD 进行测试时,合并敏感性更高,但特异性相似。与临床医生相比,AI 模型的表现优于经验不足的作员,但不如所报告研究中的专家准确。
这些结果说明了实施 AI 以支持胎儿心脏病学决策的新兴尝试。事实上,在过去的五年中,人们的兴趣已经逐渐从识别正常胎儿的心脏平面转向 CHD 的分类和诊断性能的评估。初步研究表明,在所有解剖视图中,心脏视图是最难识别的,因为心动周期的动态性和不同扫描角度产生的“类别混淆”,43而最近,发现 AI 在超过 90% 的病例中正确分类了心脏平面,与专家总体上意见一致。18自动分割在心脏形态学的自动分析中显示出潜力,并可能有助于获得自动测量,例如心轴或心室直径。28,40这些基于 AI 的正常心脏解剖结构分析的努力为异常检测作为最近的发展奠定了基础——本综述中发表的所有研究都在 2020 年之后。
到目前为止,AI 胎儿心脏检查主要通过使用从视频中提取的图像或静止帧进行训练和测试的模型进行评估,而只有两项研究使用视频分析。29,31尽管对于视频是否优于静止图像(反之亦然)尚未达成共识,但在临床实践中,作员会扫描心脏,以使用移动图像评估心脏结构的空间关系。在我们看来,在仅评估静止图像时,超声作为实时成像方式的优势在某种程度上被忽视了,这在涉及快速跳动的胎心时尤为重要。这种实时元素还表明,AI 模型与采集的集成是在实践中最有可能奏效的模式,基于人工智能的软件嵌入在超声机器中。29,31,44
提高对结构性心脏缺陷识别的既定方法是应用彩色多普勒。7,45值得注意的是,只有两项纳入的研究使用了使用彩色多普勒图像进行 AI 模型开发和评估的方案,目前尚不清楚 AI 模型如果使用彩色多普勒数据进行训练是否会表现得更好,或者这是否实际上会增加类别混淆。
虽然不是常规推荐的,但先前发现心脏测量可以改善心脏缺陷的产前检测和预后评估,例如主动脉缩窄、左心发育不良综合征和房室间隔缺损。46,47心脏生物测量的手动测量是一项耗时的任务,主要由胎儿心脏病学专家进行靶向检查,而不是常规筛查。这些测量的自动化可能会加快这一过程并有助于它们的获取。五项研究探讨了自动心脏生物测量技术,其中一项显示了实施自动心脏生物测量技术以改善主动脉缩窄早期预测的可行性。40这是一种严重的心脏缺陷,很微妙,经常在产前被遗漏。48因此,有必要在这个方向上进行进一步的研究。
大多数研究得出结论,AI 的表现优于经验不足的超声医师,达到接近专家水平的诊断准确性。AI 辅助还可以提高性能,特别是对于专业知识较低的作员。然而,必须谨慎解释这些发现,因为胎儿心脏病学的专业知识仍不一致。尽管一些研究试图根据多年的胎儿心脏超声经验(从 10 年到 15-25 年不等)来定义专业知识 -34,35,39(补充表 S2),其中至少 10 年的阈值可能被认为是一个合理的基准,其他指标依赖于病例量、参加结构化培训或专业头衔,但没有具体说明这些是否与临床或超声技能有关。考虑到美国数据采集的可变性会引入显着的数据异质性,尽管临床经验如何转化为超声技能也是当前研究没有充分解决的问题,尽管它具有相关性。另一个问题涉及经验丰富的人员报告的假阳性和假阴性率,高达 5%。28在高专业水平单位中,这些比率很难先验确定,高度依赖于数据集组成和病例复杂性(主动脉缩窄、28,34总肺静脉异常回流,28,34来自肺动脉的左冠状动脉异常,34主动脉肺窗 /34 补充表 S1)。鉴于这些挑战,未来的研究应优先制定明确和标准化的标准,以定义胎儿心脏病学专业知识,跨越不同程度的病例复杂性,以提高 AI 辅助诊断方法在胎儿心脏病学中的可靠性。尽管敏感性令人鼓舞,但处理罕见 CHD 检测的 AI 模型(不太可能在产前诊断)的执行以较低的特异性为代价。在实践中,使用此类模型将导致胎儿心脏病科病房的假阳性转诊率大幅增加。49此外,应根据总体偏倚风险的不明确到高风险、对报告标准的次优依从性和低 GRADE 质量来考虑结果,尽管我们承认纳入的研究处于诊断准确性研究开发和测试的早期阶段。在大多数研究中,患者选择、指标测试和参考标准的实施以及数据流都出现了显著的偏倚。目前尚不清楚是否进行了患者选择,从而获得更好的 AI 性能。与这种风险相符,一些研究仅使用高质量图像来开发 AI 模型,这可能会引入偏差并降低在可能获得低质量图像的真实临床场景中的适用性。此外,3 项研究将心脏检查结果的临床解释视为参考标准,无需产后确认,这意味着如果心脏病专家在产前仅检测到真阳性,则存在不确定性。最后,在多中心研究中,处理数据聚类的过程没有明确报告,50再加上有限的外部验证,考虑到超声机器和成像协议的变化,它对 AI 实际性能的估计提出了挑战,所有这些都可能影响 AI 模型的性能。未来的研究应优先考虑外部验证,以评估不同人群、临床环境和医疗保健基础设施的 AI 性能,以及质量控制的使用以及对标准化成像协议和国际指南的遵守,以最大限度地减少不同机器和作员技术引入的可变性。还需要没有数据共享限制的开源,以最大限度地提高泛化性。在完成之前,广泛应用这些 AI 模型的信心仍然有限。在检查胎儿心脏病学进展与潜在危害之间的细线时,应仔细考虑这些方面。在这种情况下,“信任校准”的新挑战是关键,指的是临床医生能够依赖正确的 AI 输出,同时在错误时覆盖它们以防止误诊。如何适当地实现这一目标仍然是一个持续争论的问题。此外,当人类出错时,AI 模型可能是正确的,而对处理这种情况的最佳方法的了解就更少了。38可解释的 AI (XAI) 技术,例如显著性图、注意力机制或视觉解释方法,有可能通过说明 AI 系统如何做出决策来解决临床问题。尽管有人建议结合 XAI 可以增强临床医生对 AI 预测的信任,但 XAI 在产前心脏超声中的探索仍未得到充分探索,未来的研究应优先考虑在透明度、可解释性和临床可接受性方面评估可解释的方法。32
我们审查的优势在于对 CHD 检测和表征的 AI 性能进行系统和详细的评估。我们试图在产前筛查的背景下了解此类模型的临床潜力,而不是从技术角度了解实施可行性。我们也承认本系统综述的局限性,主要是由于组成研究的局限性。首先,纳入的研究主要进行回顾性数据收集,前瞻性评价可能会对 AI 性能给出不同的结果。事实上,我们假设现实世界的 AI 模型性能可能会更弱,因为临床实践中较低质量记录的比例较高,并且依赖于作员的因素。其次,我们确定了异质性的突出来源,从收集的心脏视图到不同数据集中不同的 CHD 患病率和类型。最后,本系统综述的结果主要来自 HIC 和高等教育单位,与低收入和中等收入国家或社区筛查水平相比,人工智能的实施预计相关性较低。
根据 TRIPOD+AI 报告标准评估,大多数关于 AI 产前检测 CHD 的研究都存在中度偏倚风险,依从性欠佳。异质性适用于大多数研究,包括数据集、用于模型开发和测试的方案、医疗保健环境和考虑的心脏缺陷类型。AI 模型的性能优于非专家临床医生,略逊于胎儿心脏病学专家的结论应谨慎解释。由于研究数量相对较少,存在局限性,影响了检测发表偏倚和影响 GRADE 质量的能力。我们呼吁未来研究的研究人员遵循报告标准,以减少偏倚风险和异质性来源。此外,缺乏在社区筛选层面进行的前瞻性研究,其中实施基于 AI 的系统可能最有益。除了彩色多普勒和心脏生物测量领域的技术发展外,还需要未来对诊断准确性进行前瞻性研究。
ATP,1 月:资金获取、项目管理;ED、OP、ATP:概念化;EB、OP、ATP:方法设计;ED、OP、CS:文献检索;ED,OP:数据分析;ED、OP、ATP、JAN、NHC、BS:数据解释;EB、OP、ATP:写作 - 原始草稿;所有作者:写作—审查和编辑:所有作者阅读并批准了手稿的最终版本。ATP、ED 和 OP 直接访问并验证了手稿中报告的底层数据。
本系统综述中的数据可在纳入的各篇文章中找到。应合理要求,可从通讯作者处获得支持研究结果的数据。
ATP 和 JAN 是智能超声的高级顾问,由牛津大学创新公司负责管理大学员工的咨询活动。所有其他作者均声明没有竞争利益。
这项研究得到 InnoHK 资助的香港心脑血管健康工程中心 (COCHE) 项目 2.1 (早期心血管风险和胎儿超声心动图) 的部分支持。ATP 和 JAN 得到了英国国家健康与护理研究所 (NIHR) 牛津生物医学研究中心 (BRC) 的支持。
引用-柳叶刀,eClinicalMedicine,第 84 卷,103250
扫码添加客服微信或手动搜索添加
* 复制后打开微信粘贴搜索