名家讲堂

人工智能(AI)模型的校准对于反映基于图像的胚胎选择的实际植入概率是必要的

9.png


人工智能(AI)模型的校准对于反映基于图像的胚胎选择的实际植入概率是必要的(⬅点击左侧文字观看视频)


研究问题:胚胎选择的人工智能模型是否提供了在临床和患者人口统计中普遍存在的实际植入概率?

简要回答:AI模型需要根据代表性数据进行校准,然后才能在预测得分和实际植入概率之间提供合理的一致性。

我们已经知道:人工智能模型在根据植入可能性(通过曲线下面积(AUC)测量)区分胚胎方面表现良好。然而,辨别性能与模型在预测实际植入可能性方面的表现无关,特别是在临床和患者人口统计中。一般来说,预测模型必须根据代表性数据进行校准,以提供有意义的可能性。校准可通过分数十分位数上的“预期校准误差”(ECE)进行评估和总结,并使用HosmerLemeshow拟合优度测试是否存在明显的校准不足。ECE描述了预测概率和观察到的植入率之间的平均偏差,为0表示完美校准。

研究设计、规模、持续时间:使用18个诊所的延时胚胎视频开发人工智能模型预测胎儿心跳(FHB)。在三个最大的诊所的临床支持模型上对模型的推广进行了评估。校准曲线用于评估AI预测分数和观察到的FHB结果之间的一致性,并由ECE进行总结。评估模型1)未经校准,2)对其他诊所的数据进行校准(Platt标度),以及3)对诊所自身的数据进行校准(30%/70%用于校准/评估)。

参加者/材料,设置,方法:一个先前描述的AI算法,IdasCar,基于115842个时间序列的胚胎,包括14644个移植胚胎(已知植入数据),作为三个最大诊所的AII模型的基础(n=2829);2,673;1327个儿童胚胎),因此他们的数据不包括在模型训练期间。对三个诊所(平均值±标准差)的ECE进行比较,模型仅使用儿童胚胎进行校准/未校准,包括整体和患者年龄的亚组(<36,36-40,>40岁)。

主要结果和机会的作用:三个诊所的AUC为0.675±0.041(平均值±SD),不受校准的影响。未经校准,总体ECE为0.223±0.057,表明分数与实际植入率之间的一致性较弱。根据其他诊所的数据进行校准,总体ECE为0.040±0.013,表明有相当大的改善,临床变异中等。

由于植入概率受临床实践和患者人口统计学的影响,对患者年龄(<36,36-40,>40岁)进行了亚组分析。并对其他诊所的数据进行了校准,年龄组的ECE为(0.129±0.055 vs.0.078±0.033 vs.0.072±0.015)。因此,这些校正误差大于总体平均ECE 0.040,表明各年龄段的普遍性较差。包括年龄作为校正输入,年龄组的ECE为(0.088±0.042 vs.0.075±0.046 vs.0.051±0.025),表明诊所和年龄组的得分和植入率之间的一致性有所提高。但是,通过校准,包括诊所自身数据中的年龄,使用ECEs获得最佳校准(0.060±0.017 vs.0.040±0.010 vs.0.039±0.009)。结果表明,临床实践和患者人口统计学都会影响校准,因此理想情况下应针对校准进行调整。

使用Hosmer-Lemeshow拟合优度测试校准缺失,只有一家诊所的一个年龄组出现校准错误(P=0.02),而三家诊所的所有其他年龄组均进行了适当校准(P>0.10)。

局限性、谨慎理由:在本研究中,AI模型校准是基于临床和年龄进行的。其他患者元数据(如BMI和患者诊断)也可能与校准相关。然而,对于临床自身数据的校准和评估,每个亚组都需要大量的数据。

研究结果的更广泛意义:通过校准分数,AI模型可以预测每个胚胎的实际植入可能性。概率估计是患者沟通和临床决策(如决定何时丢弃/冷冻胚胎)的有力工具。因此,模型校准可能是改善临床结果和缩短活产时间的下一步。

试验注册号:这项工作部分由丹麦创新基金(IFD)资助,文件号为7039-00068B,部分由维特罗利A/S资助