哈佛大学团队合作开发一种预测胰腺癌风险的算法
近日,根据哈佛大学医学院,哥本哈根大学的研究人员与波士顿退伍军人医疗保健系统、美国丹娜·法伯癌症研究所和哈佛大学陈曾熙公共卫生学院合作进行的一项新研究,他们已开发出一种人工智能工具,仅通过患者的病历就能在确诊前三年识别出具有高胰腺癌风险的人群。
该研究结果于5月8日发表在国际知名期刊《Nature Medicine》杂志上,标题为“A deep learning algorithm to predict risk of pancreatic cancer from disease trajectories”。研究人员称,研究结果表明,利用人工智能的人群筛查在发现疾病高风险人群方面可能很有价值,并且可以加快发现一种经常在晚期才能确诊的疾病,通常这种疾病的治疗效果较差,结果也很糟糕。
研究背景
胰腺癌是一种侵袭性疾病,通常出现较晚,预后较差,需要早期就要发现。在这项研究中,研究人员将人工智能方法应用于丹麦600万患者(24000例胰腺癌病例)(据丹麦国家患者登记处(DNPR))和美国的300万患者(3900例)(据美国退伍军人事务部(US- VA))的临床数据。研究人员根据临床历史中的疾病代码序列训练了机器学习模型,并测试了对于增量时间窗口内癌症发生的预测。对于36个月内发生的癌症,较佳DNPR模型的表现为受试者工作特征(AUROC)曲线下面积= 0.88,当排除癌症诊断前3个月内的疾病事件时,其表现降至AUROC (3m) = 0.83,对于1000名50岁以上的较高风险患者,其预估的相对风险为59。应用于US-VA的丹麦模型交叉数据表现较差(AUROC = 0.71),需要再次训练才能提高表现(AUROC = 0.78, AUROC (3m) = 0.76)。这些数据结果提高了为高风险患者设计现实监测方案的能力,通过早期发现这种侵袭性癌症,可有利于延长寿命并提高生活质量。
研究过程
研究人员提出了一个框架,通过将深度学习应用于真实世界的疾病轨迹纵向数据集,来预测低发病率但非常具有侵袭性的癌症的风险。本研究旨在明确使用疾病事件的时间序列,并评估用于风险预测的疾病轨迹结束和癌症发生之间的间隔增加的预测癌症风险的能力。研究结果表明,使用疾病史中的时间序列作为模型输入,而不仅仅是疾病发生的任意时间,提高了通过人工智能方法预测胰腺癌发生的能力,针对较高风险群体效果更佳。
为了达到预测准确,研究人员设计了一个潜在的现实预测-监测选择过程,该过程以真实世界的100万患者为样本,其中有可用的纵向电子病历。分析表明,通过对所有数据进行训练的ML模型对1000例高风险患者进行预测(无数据排除,阳性预测值(PPV)为0.32;12个月的预测间隔,年龄在50岁或以上),大约320人终会患上胰腺癌。其中一些可能已经分配给医生密切监测的风险因素,如慢性胰腺炎。然而,其中一小部分将被新确定为高风险。(癌症发生前的后3个月的症状被排除在训练输入之外(PPV 0.07, 12个月预测间隔,年龄50岁或以上)。
当前研究中,研究人员设计了几个版本的人工智能模型,并根据丹麦国家卫生系统41年来620万名患者的健康记录对它们进行了训练。在这些患者中,23,985人随着时间的推移患上了胰腺癌。在训练过程中,算法根据疾病轨迹识别出指示未来胰腺癌风险的模式,即患者是否具有随着时间的推移以特定顺序发生的某些条件。
接下来,研究人员在一组之前从未遇到过的全新患者记录上测试了表现较好的算法——一组美国退伍军人健康管理局的数据集,该数据集包含近300万份记录,跨越21年,其中包含3864名被诊断患有胰腺癌的人。该工具在美国数据集上的预测准确性略低。
这很可能是因为美国的数据集是在较短的时间内收集的,并且包含了一些不同的患者群体概况-丹麦数据集中的整个丹麦人口与退伍军人事务部数据集中的现任和前任军事人员。当该算法在美国数据集上从零开始重新训练时,其预测准确性得到了提高。
根据疾病轨迹训练和预测胰腺癌风险
研究意义
基于真实病例的人工智能可以为社区的早期癌症检测提供可应用的工作流程,将治疗重点从晚期癌症转移到早期癌症,提高患者的生活质量并提高癌症治疗的收益/成本比。
声明:本文版权归原作者所有,转载文章仅为传播更多信息,如作者信息标记有误,或侵犯您的版权,请联系我们,我们将在及时修改或删除内容,联系邮箱:marketing@360worldcare.com