新型人工智能模型诞生 为脑癌患者减少副作用 提高生活质量

Frieza77

前瞻经济学人

麻省理工学院的研究人员正在使用创新的机器学习技术,通过减少对恶性胶质母细胞瘤(脑癌中最严重的一种)的毒性化疗和放疗剂量,来改善患者的生活质量。

胶质母细胞瘤是一种出现在大脑或脊髓中的恶性肿瘤,成人患病后的预期寿命不超过五年。病人必须忍受辐射治疗和每月服用多种药物的联合治疗。医学专业人员通常使用最大安全剂量的药物来尽可能地缩小肿瘤。但是这些强效药物会造成令病人虚弱的副作用。

在下周于斯坦福大学(Stanford University)召开的2018年医疗保健机器学习大会(Machine Learning for Healthcare conference)上发表的一篇论文中,麻省理工学院(MIT)媒体实验室(MIT Media Lab)的研究人员详细地介绍了一种模型,这种模型可以令用药方案在保证有效的前提下减少毒性。在“自我学习”机器学习技术的推动下,该模型着眼于目前正在使用的治疗方案,并反复调整剂量,最终,它找到了一种最佳治疗方案,尽可能降低剂量的药效和频率,但仍然能将肿瘤的大小降小到与传统治疗方案效果相当的程度。

在对50名患者的模拟试验中,机器学习模型设计了治疗周期,将药效降低到几乎所有剂量的四分之一或一半,同时保持同样的肿瘤缩小效果。很多时候,它完全跳过了治疗,每年只安排两次,而不是每月一次。

“这是我们一直的目标,我们必须帮助病人减少肿瘤的大小,但同时,我们也要确保病人的生活质量,剂量毒性不会导致压倒性的疾病和有害的副作用,”在媒体实验室监督这项研究的首席研究员Pratik Shah说。

这篇论文的第一作者是媒体实验室研究员Gregory Yauney。

奖励好的选择

研究人员的模型使用了一种被称为强化学习(RL)的技术,这是一种受行为心理学启发的方法,在这种方法中,一个模型会学会倾向于某些会导致预期结果的行为。

该技术包括人工智能“代理”,在不可预知的复杂环境中完成“行为”,以达到预期的“结果”。当它完成一个行为时,代理会收到一个“奖励”或“惩罚”,这取决于行为是否导致预期的结果,然后,代理相应地调整其操作以实现该结果。

奖励和惩罚基本上是正数和负数,比如+1或-1。它们的价值因采取的行动导致结果成功或失败的概率等因素而异。代理本质上是试图根据奖励和惩罚值对所有操作进行数值优化,以获得给定任务的最大结果得分。

这种方法被用来训练计算机程序DeepMind。在2016年的围棋比赛中,DeepMind击败了世界上最好的人类棋手之一,成为头条新闻。它还在军事演练中被用来训练无人驾驶汽车,比如融入交通或停车,车辆会反复练习,调整自己的路线,直到找到正确的方向。

研究人员将一种RL模型应用于胶质母细胞瘤的治疗,这些治疗结合了替莫唑胺(TMZ)和丙卡嗪、洛莫司汀(lomustine)和长春新碱(PVC),用药数周或数月。

该模型的人工智能代理梳理了传统的用药方案。这些方案是基于数十年来临床应用的协议,以及基于动物实验和各种临床试验的结果。肿瘤学家使用这些既定方案,根据病人体重来预测给予病人的剂量。

随着模型探索这些用药方案,在每个计划的给药间隔,比如说,一个月一次,它决定了几个行为中的一个。首先,它可以发放或停止剂量。如果给药,它会决定是否需要整个剂量,或者只是一部分剂量。在每一个行为中,它都会给另一个临床模型发出信号,这个模型通常用于预测肿瘤大小的变化以响应治疗,来观察这些行为是否会缩小肿瘤的平均直径。如果成功了,模型就会收到奖励。

然而,研究人员还必须确保该模型不只是提供最大的剂量和药效。因此,当模型选择使用全部剂量时,它就会受到惩罚,促使它选择更少、更小的剂量。Shah说:“如果我们一心只为减少平均肿瘤直径,让它采取任何它想要的行动,它就会不负责任地使用药物。相反,我们说,‘我们需要减少为达到那种结果所裙带的有害行为。’”

Shah说,这代表了一种“第一次在论文中描述的非传统的RL模型”,它权衡了行为(剂量)对结果(肿瘤减少)的潜在负面影响。传统的RL模型致力于一个单一的结果,比如赢得一场比赛,并采取任何行为来最大化预期结果。但另一方面,研究人员的模型在每一个行为中,都可以灵活地找到一个剂量,这个剂量不只会最大化地减少肿瘤,但也能在最大限度地减少肿瘤和降低毒性之间达到完美的平衡。他补充说,这种技术可应用于各种各样的医学和临床试验,这些医学和临床试验所采取的治疗病人的行动必须加以控制,以防止有害的副作用。

最优方案

研究人员对50名模拟患者进行了模型训练,这些患者是从一个大型的胶质母细胞瘤患者数据库中随机选择的,他们以前都接受过传统的治疗。对于每个患者,该模型进行了大约20,000次反复试错测试。一旦训练完成,模型就会学习最优方案的参数。当接收到新病人时,模型会使用这些参数并根据研究人员提供的各种约束条件来制定新的方案。

研究人员随后在50名新的模拟病人身上测试了这个模型,并将结果与传统的TMZ和PVC结合疗法进行了比较。当没有剂量处罚时,该模型设计的方案与人类专家几乎相同。然而,当设定了大小不一的惩罚时,模型在减少肿瘤大小的同时,也大大降低了剂量的频率和药效。

研究人员还设计这个模型去有针对性地治疗每个病人,以及一群类似的病人,并取得了类似的结果(研究人员可以获得每个病人的医疗数据)。传统上,相同的给药方案被用于不同的患者群体,但肿瘤大小、病史、遗传特征和生物标记的差异都会改变患者的治疗方式。Shah说,在传统的临床试验设计和其他治疗方法中没有考虑到这些变量,这常常导致大量人群对治疗反应不佳。

“我们对这个模型说,‘你必须给所有的病人使用同样的剂量吗?’”它说,不是。我可以给这个人四分之一的剂量,给这个人一半,这个人的话也许这次可以先跳过。Shah说:“这是这项工作中最令人兴奋的部分,我们能够通过使用非传统的机器学习体系进行一人试验,从而产生精确的基于医学的治疗方法。”

临床试验设计专家、j·克雷格·文特尔研究所(J. Craig Venter Institute)人类生物学教授兼主任尼古拉斯·j·肖克(Nicholas J. Schork)说,与传统的目测发放剂量方法(即观察患者的反应,并据此进行调整)相比,该模型提供了一个重大改进。他说:“人类不像机器那样拥有深入地观察大量数据所得出的看法,人类的过程是缓慢、乏味和不精确的。现在,你只是让电脑在数据中寻找模式,但如果这换成人类来做,并且要使用这个方法找到最佳剂量的话,这需要大量的时间。”

Schork补充说,这项工作可能会特别引起美国食品和药物管理局(FDA)的兴趣,该机构目前正在寻找利用数据和人工智能开发生命健康技术的方法。他说,相关法规仍然需要建立,“但我毫不怀疑,在很短的时间内,FDA会找出对这些(技术)进行适当审查的方法,这样这些技术就可以用于日常临床项目。”

可行性研究报告

广告、内容合作请点这里:寻求合作

咨询·服务

相关阅读

精彩推荐