人工智能在单细胞测序和空间转录组学中的最新研究进展|顶刊速递·24-10-28
小罗碎碎念
好久不见,最近在研究一些比较有意思的事情,但是又没有取得实质性的进展,所以公众号就停更了一段时间,接下来会继续保持更新的,因为攒了很多想要分析的文献。
这期推文综合了七篇Nature的大子刊,全部焦点都集中于人工智能在单细胞测序和空间转录组学中的应用。病理组学的套路我已经分析了好几个月了,接下来会介绍点其他的内容。
总而言之,我觉得医学AI未来的热点会迅速的从病理组学转移到基因组学,最终落到多模态多组学,所以我接下来的内容会持续关注这些方面。
一、多组学分析揭示肾透明细胞癌免疫治疗应答新标志
一作&通讯
作者角色 | 姓名 | 单位名称 | 单位翻译 |
---|---|---|---|
第一作者 | Lisa Kinget | Laboratory of Experimental Oncology, KU Leuven | 鲁汶大学实验肿瘤学实验室 |
第一作者 | Stefan Naulaerts | Laboratory of Cell Stress and Immunity (CSI), Department of Cellular and Molecular Medicine, KU Leuven | 鲁汶大学细胞应激与免疫实验室(CSI),细胞与分子医学院 |
通讯作者 | Benoit Beuselinck | Department of General Medical Oncology, University Hospitals Leuven | 鲁汶大学附属医院普通医学肿瘤科 |
通讯作者 | Abhishek D. Garg | Laboratory of Cell Stress and Immunity (CSI), Department of Cellular and Molecular Medicine, KU Leuven | 鲁汶大学细胞应激与免疫实验室(CSI),细胞与分子医学院 |
文献概述
这篇文章通过多组学分析和机器学习技术,发现了一种新的基于HLA的肿瘤转录组签名,能够预测晚期肾透明细胞癌患者对免疫检查点阻断疗法的临床反应。
研究的主要挑战是确定哪些晚期肾透明细胞癌(aRCC)患者可能从免疫检查点阻断(ICB)治疗中受益。研究团队通过多组学映射aRCC在ICB治疗下的情况,涉及在真实世界数据队列中的发现分析,随后在独立队列中进行验证。
他们将超过1000名患者的肿瘤转录组与单细胞和空间分辨率的验证相连接,揭示了患者特异性的炎症肿瘤相关巨噬细胞和(预)耗竭的CD8+ T细胞之间的相互作用,这种相互作用被人类白细胞抗原(HLA)库区分,对肿瘤新抗原有更高的偏好。
研究者们开发了一个跨组学机器学习管道,用于衍生新的肿瘤转录组足迹,这些足迹有利于HLA等位基因的新抗原。这个机器学习签名与真实世界数据和独立临床队列中ICB治疗后的积极结果相关。在RENCA肿瘤小鼠模型中的实验表明,CD40激动剂与PD1阻断联合使用可以增强炎症肿瘤相关巨噬细胞和CD8+ T细胞,从而实现相对于其他测试方案的最大抗肿瘤效果。
文章还讨论了aRCC对免疫疗法的吸引力,因为它有最高的CD8+ T细胞浸润之一。然而,与其他对ICB有反应的癌症不同,aRCC表现出非典型的免疫学特征,例如,aRCC的肿瘤突变负担(TMB)较低,与非免疫原性肿瘤更为相似。
此外,aRCC中高免疫浸润与较差的结果相关。这些矛盾造成了免疫分层的挑战。尽管ICB已获准用于aRCC的治疗,但没有批准的生物标志物可以合理地预先选择患者或通知“智能”免疫疗法组合。
研究的结果是,通过综合多组学和空间肿瘤数据与患者ICB反应,为发现新的生物标志物提供了机会,这些生物标志物可以预测接受ICB治疗的aRCC患者的生存。
研究在12个独立队列中的1377名患者中进行了全面的RCC肿瘤免疫景观映射,以发现新的预测ICB驱动益处的生物标志物。这种方法与现有的RCC免疫肿瘤学景观相比,有助于在多模态组学/空间分析和新的免疫社区驱动的生物标志物方面推进领域,以实现RCC患者的现实世界管理。
二、PINNACLE模型:深度学习在单细胞蛋白互作网络中的应用
一作&通讯
作者角色 | 作者姓名 | 单位名称(中文) |
---|---|---|
第一作者 | Michelle M. Li | 哈佛医学院生物医学信息学系 |
通讯作者 | Marinka Zitnik | 哈佛医学院生物医学信息学系 |
通讯作者 | Daniel Marbach | 罗氏制药,罗氏创新中心巴塞尔,瑞士 |
文献概述
这篇文章介绍了PINNACLE(Protein Network-based Algorithm for Contextual Learning)模型,这是一种基于几何深度学习的新型人工智能方法,能够根据蛋白质在不同细胞类型中的相互作用生成具有生物学上下文感知能力的蛋白质表示,以促进对蛋白质功能的理解并推动分子疗法的发展。
PINNACLE通过结合单细胞转录组图谱、蛋白质相互作用网络、细胞类型间相互作用和组织层级结构,生成了专门针对生物学上下文的潜在蛋白质表示。这些表示能够捕捉跨越156种细胞类型和62种不同层级组织的细胞和组织结构。
PINNACLE模型的主要特点包括:
- 多尺度图神经网络:通过在蛋白质、细胞类型和组织之间传递信息,学习细胞类型特定的蛋白质表示、细胞类型表示和组织表示。
- 上下文感知:PINNACLE能够为每个蛋白质生成多个表示,每个表示都依赖于特定的细胞类型上下文。
- 零样本组织层级检索:PINNACLE的嵌入空间能够反映细胞和组织的组织结构,实现零样本检索组织层级。
- 下游任务适应性:预训练的蛋白质表示可以适应下游任务,如增强3D结构基础表示以解决免疫肿瘤学蛋白质相互作用,以及跨细胞类型研究药物效应。
研究结果表明,PINNACLE在提名类风湿性关节炎和炎症性肠病的治疗靶点方面优于现有最先进的模型,并且能够比无上下文模型更准确地预测细胞类型上下文。此外,PINNACLE还能够增强基于3D结构的蛋白质表示,以更好地区分特定细胞类型中的结合和非结合蛋白质。
文章还讨论了PINNACLE的潜在应用,包括预测细胞类型特异性的蛋白质功能和在细胞类型水平上识别治疗候选物。作者强调了在不同细胞类型和组织中理解蛋白质功能和开发分子疗法的重要性,并提出PINNACLE可以作为实现这一目标的工具。
三、scFoundation:大规模预训练模型在单细胞数据分析中的应用
一作&通讯
作者角色 | 姓名 | 单位名称(中文) | 单位名称(英文) |
---|---|---|---|
第一作者 | Minsheng Hao | 清华大学自动化系生物信息学与生物信息学教育部重点实验室 | MOE Key Laboratory of Bioinformatics and Bioinformatics Division, Department of Automation, Tsinghua University |
通讯作者 | Jianzhu Ma | 清华大学生命科学与医学学院、合成与系统生物学中心 | School of Life Sciences and School of Medicine, Center for Synthetic and Systems Biology, Tsinghua University |
通讯作者 | Xuegong Zhang | 清华大学生命科学与医学学院、合成与系统生物学中心 | School of Life Sciences and School of Medicine, Center for Synthetic and Systems Biology, Tsinghua University |
通讯作者 | Le Song | 北京生物图谱公司 | BioMap, Beijing |
通讯作者 | Le Song | 穆罕默德·本·扎耶德人工智能大学 | Mohamed bin Zayed University of Artificial Intelligence, Abu Dhabi, UAE |
文献概述
这篇文章是关于一个名为scFoundation(也称为xTrimoscFoundationα)的大规模预训练模型的研究,该模型包含约1亿参数,覆盖约2万个基因,并在超过5000万个人类单细胞转录组档案上进行预训练。
scFoundation是一个大型模型,以其可训练参数的规模、基因的维度和训练数据的体积而著称。它的不对称Transformer类架构和预训练任务设计使其能够有效捕捉不同细胞类型和状态中基因之间的复杂上下文关系。
实验表明,scFoundation作为一个基础模型,在多种单细胞分析任务中取得了最先进的性能,如基因表达增强、组织药物反应预测、单细胞药物反应分类、单细胞扰动预测、细胞类型注释和基因模块推断。
文章还讨论了大型预训练模型在自然语言处理相关领域研究中的革命性作用,并提出了将这些模型应用于生命科学中的前景。作者提出了一个基于大规模细胞“句子”开发细胞基础模型的挑战性问题,并强调了单细胞RNA测序(scRNA-seq)数据在开发基础模型中的潜力。
文章详细介绍了scFoundation的开发过程,包括数据收集、模型设计、预训练任务和下游任务的应用。此外,还探讨了scFoundation在提高癌症药物反应预测、将批量药物反应转移到单细胞、理解细胞对扰动的响应以及注释细胞类型等方面的能力。
最后,文章讨论了scFoundation的优势和潜力,以及在单细胞生物学领域作为基础模型的潜在应用。作者还指出了scFoundation的一些局限性,并提出了未来可能的改进方向,包括使用更大的参数和数据集进行预训练,以及探索单细胞多组学数据领域的机会。
总的来说,这项工作表明,大型预训练模型在单细胞领域具有巨大的潜力,为复杂分子系统的建模和理解开辟了新途径。
四、早期胰腺癌预后:术前肝脏活检的多参数分析
一作&通讯
角色 | 姓名 | 单位名称(中文) |
---|---|---|
第一作者 | Linda Bojmar | 威尔康奈尔医学院,纽约,美国 |
第一作者 | Constantinos P. Zambirinis | 林雪平大学,瑞典 |
第一作者 | Jonathan M. Hernandez | 国家癌症研究所,美国国立卫生研究院,马里兰州,美国 |
通讯作者 | David Lyden | 威尔康奈尔医学院,纽约,美国 |
文献概述
研究的核心目的是通过多参数分析预测早期胰腺癌患者肝脏转移的结果。
-
研究背景:胰腺癌(PaC)是一种高度恶性的肿瘤,转移率高,预后差。肝脏是最常见的转移部位,超过40%的患者在手术后3年内会发生肝转移(LiM),且几乎总是致命的。
-
研究假设:研究者假设通过对胰腺癌患者手术期间获得的肝脏活检样本进行多参数分析,可以根据不同患者的转移风险、转移时间和器官部位进行分类。
-
研究方法:研究纳入了49名局部胰腺癌患者和19名非癌症性胰腺病变的对照患者在胰腺切除术期间获得的肝脏活检样本。通过结合代谢组学、组织学、单细胞转录组学和多重成像方法进行分析。患者被前瞻性地随访(中位时间3年),并根据复发情况分为四组:早期(手术后6个月内)或晚期(手术后超过6个月)肝转移(LiM)、肝外转移(EHM)和无病生存者(NED)。
-
主要发现:
- 与对照组相比,胰腺癌患者的肝脏显示出增强的炎症迹象。
- 未来发生转移的患者中,中性粒细胞外陷阱(NETs)的富集、Ki-67上调和肝脏肌酸的降低显著区分。
- 未来发生LiM的患者特征为T细胞小叶浸润较少、脂肪肝程度较低和瓜氨酸化H3水平较高。
- 机器学习模型基于上述参数,成功以78%的准确率预测了手术时的转移结果。
-
结论:在胰腺癌诊断时对肝脏活检样本进行多参数分析,可能有助于确定转移风险和器官趋向性,并指导临床分层,以选择最佳治疗方案。
-
研究意义:这项研究提供了一种新的方法,通过分析肝脏的多参数数据来预测胰腺癌患者的转移风险,这对于临床治疗决策具有重要意义。
文章还详细描述了研究的实验设计、患者选择、样本处理、数据分析和统计方法,以及研究的局限性和未来方向。
五、单细胞与空间转录组学:解析细胞身份与组织结构的新视角
一作&通讯
角色 | 姓名 | 单位名称(中文) |
---|---|---|
第一作者 | Gunsagar S. Gulati | 丹娜-法伯癌症研究所 |
第一作者 | Jeremy Philip D’Silva | 斯坦福大学 |
第一作者 | Yunhe Liu | 德克萨斯大学MD安德森癌症中心 |
通讯作者 | Aaron M. Newman | 斯坦福大学 |
文献概述
文章讨论了单细胞转录组学(single-cell transcriptomics)和空间转录组学(spatial transcriptomics)技术的最新进展、挑战和前景,特别关注了这些技术在识别和表征细胞状态以及多细胞邻域方面的应用。
文章的主要内容包括:
-
单细胞转录组学:讨论了单细胞RNA测序(scRNA-seq)如何改变了我们对细胞多样性和基因表达动态的理解,并讨论了样本处理、数据整合、识别微妙的细胞状态、轨迹建模、去卷积和空间分析等方面的进展。
-
空间转录组学:探讨了空间转录组学如何将单细胞置于多细胞邻域中,并识别空间上重现的表型,即生态型(ecotypes)。
-
临床转化:讨论了单细胞和空间转录组学在临床研究中的应用,包括干细胞生物学、免疫学和肿瘤生物学。
-
人工智能和单细胞转录组学的未来:讨论了深度学习等人工智能技术在分析单细胞和空间转录组学数据中的应用。
-
结论:总结了单细胞转录组学和空间转录组学技术如何革新我们对细胞状态在复杂组织中起源、调节和维持的理解。
文章强调了这些技术在生物医学研究中的重要性,并展望了它们在临床应用中的潜力。同时,文章也指出了在实验设计和生物信息学分析中存在的挑战,并提出了一些可能的解决方案。
六、scGPT:单细胞多组学研究的新一代基础模型
一作&通讯
作者角色 | 姓名 | 单位名称 |
---|---|---|
第一作者 | Haotian Cui | 加拿大多伦多大学健康网络彼得蒙克心脏中心 |
第一作者 | Chloe Wang | 加拿大多伦多大学健康网络彼得蒙克心脏中心 |
通讯作者 | Bo Wang | 加拿大多伦多大学健康网络彼得蒙克心脏中心 |
文献概述
这篇文章介绍了一个名为scGPT的新型基础模型,它利用生成式人工智能(AI)来处理单细胞多组学数据。
scGPT是基于Transformer的预训练模型,它在超过3300万个细胞的数据仓库上构建,旨在推进细胞生物学和遗传学研究。文章详细描述了scGPT如何通过预训练和迁移学习来提高在多种下游任务中的性能,包括细胞类型注释、多批次整合、多组学整合、扰动响应预测和基因网络推断。
scGPT的核心是一个由多层Transformer块组成的模型,它能够同时生成细胞和基因的嵌入表示。在预训练阶段,scGPT使用特殊的注意力掩码和生成式训练流程来自监督地优化细胞和基因的表示。
预训练后,模型可以通过迁移学习适应新数据集和特定任务。scGPT在多种任务中展现出了卓越的性能,包括在细胞类型注释、遗传扰动预测、批次校正和多组学整合等方面的应用。
文章还讨论了预训练数据规模对模型性能的影响,以及预训练上下文与目标数据集的相关性对下游任务性能的影响。此外,scGPT能够通过其注意力机制捕捉单细胞水平上的基因-基因相互作用,为基因调控网络推断提供了新的视角。
最后,文章提出了scGPT的潜在改进方向,包括在预训练阶段纳入更多的多组学数据、空间组学数据和疾病条件数据,以及探索在零样本设置中无需微调即可适应不同任务和上下文的技术。作者期望scGPT能够成为单细胞研究的新基础,并利用不断增长的细胞图谱知识推动新发现。
七、scPROTEIN:单细胞蛋白质组学数据的深度图对比学习框架
一作&通讯
作者角色 | 姓名 | 单位名称 |
---|---|---|
第一作者 | Wei Li | 南开大学人工智能学院 |
第一作者 | Fan Yang | 腾讯AI实验室 |
通讯作者 | Han Zhang | 南开大学人工智能学院 |
通讯作者 | Jianhua Yao | 腾讯AI实验室 |
文献概述
这篇文章介绍了一个名为scPROTEIN的深度图对比学习框架,它专门用于单细胞蛋白质组学数据的嵌入表示。
scPROTEIN框架能够估计肽段定量的不确定性、去噪蛋白质数据、消除批次效应,并编码单细胞蛋白质组学特有的嵌入信息。
文章详细描述了scPROTEIN的三个阶段:
-
肽段不确定性估计:使用多任务异方差回归模型来估计每个肽段信号的不确定性,这有助于反映信号的质量(即噪声量)。基于估计的不确定性,可以为每个肽段构建权重,并执行不确定性引导的聚合,以确定蛋白质水平的丰度。
-
基于图的细胞嵌入生成:通过图对比学习生成细胞嵌入。构建细胞图,其中每个节点代表一个细胞,初始节点特征代表细胞内的蛋白质组数据。该过程有助于缓解数据缺失问题,并隐式地通过对比学习框架和去噪模块减轻批次效应。
-
下游分析:使用训练好的图卷积网络(GCN)编码器从第二阶段学习细胞嵌入,并将这些嵌入应用于多种下游任务,如细胞聚类、批次校正、细胞类型注释和临床分析。
文章还展示了scPROTEIN在多个单细胞蛋白质组学数据集上的应用,包括在细胞聚类、批次校正、细胞类型注释和临床分析等方面的有效性。此外,scPROTEIN还可以扩展到单细胞空间蛋白质组学数据,通过构建基于空间细胞邻近性的细胞图,学习空间信息丰富的嵌入,并量化肿瘤微环境中的空间异质性。
总体而言,scPROTEIN通过统一的框架解决了单细胞蛋白质组学数据分析中的多个复杂问题,并在多个数据集上展示了其优越的性能和广泛的适用性。