当前位置：首页 > news >正文

大模型照亮人工智能医疗助手的发展之路

news 2024/10/22 13:49:43

人工智能咨询培训老师叶梓转载标明出处

北京大学北京国际数学研究中心董彬教授和北京大学肿瘤医院沈琳教授等研究者，在论文《Large language models illuminate a progressive pathway to artificial intelligent healthcare assistant》中综述了通用型和专业型大模型在医疗保健领域的基本应用，展示了它们在知识检索、研究支持、临床工作流程自动化和诊断辅助等方面的实用性。

医学领域中的单模态大模型应用

通用大模型在医学领域的应用已经得到了广泛的探索。例如，OpenAI的研究显示，GPT-4在学术和专业测试中表现出色，其在USMLE（美国执业医师考试）中的表现甚至超过了其前身ChatGPT。此外，大模型在多个医学子专业中的适应性也得到了研究，包括肿瘤学、急诊医学、放射学等。这些模型不仅能够提供及时的医学数据，还能通过在线医疗咨询来普及医学知识，从而可能对远程医疗产生影响。图1展示了一个大模型如何被集成到先进的医疗支持系统中。

大模型在医学研究和写作中的整合，显著提高了研究工作的效率和公平性。它们通过有效匿名化医疗记录来保护患者隐私，并增加用于训练的医学文本数据。此外，大模型在临床试验中也发挥了巨大作用，帮助解决患者试验匹配和试验规划的挑战。

在临床工作流程中，大模型通过自动化患者信息、临床观察和测试报告的文档记录，显著减轻了医疗专业人员的负担。它们不仅提高了临床文档的准确性和完整性，还能在临床决策支持中提供有益的见解。

尽管通用大模型具有变革潜力，但在将其整合到医学领域时面临许多挑战。为了解决这些挑战，专门的医学大模型正在被开发。这些模型旨在通过在医学对话或数据集上进行微调，来更好地满足医疗保健部门的需求。

现代医学

一个显著的例子是谷歌的Med-PaLM，这是一个在USMLE风格查询中表现出色的系统。Med-PaLM通过指令调整在PaLM上进行微调，并在MultiMedQA上进行评估，显示出比之前模型更高的准确性。此外，还有专门针对放射学和电子健康记录（EHR）的大模型，它们在处理非结构化文本数据方面表现出独特的优势。

传统医学

除了现代医学，传统医学也是一个值得关注的领域。已经开发了一些专门针对传统医学的大模型，例如ShenNong-TCM和Huangdi等。这些模型通过微调现有的开源大模型，结合传统医学的经典文献和临床案例研究，增强了对传统医学知识的理解和应用。

目前，关于在医学中应用通用还是专门的大模型的辩论仍在继续。虽然专门针对领域的微调可能会影响模型的一般推理能力，但最近的研究表明，通过指令工程利用通用大模型进行医学决策可能是一个有前景的方法。例如，GPT-4在Medprompt的指导下，在医学问答任务中的性能超过了专门的模型，如Med-PaLM 2。

表 1 定义了与大模型相关的术语，包括通用和专门的大模型，以及多模态大模型等。这些定义涵盖了大模型的类型、训练方法、学习范式，以及用于优化和指导这些模型的技术。

想要掌握如何将大模型的力量发挥到极致吗？2024年10月26日叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。

留言“参加”即可来叶老师的直播间互动，1小时讲解让您轻松上手，学习如何使用 Llama Factory 微调模型。互动交流，畅谈工作中遇到的实际问题。

医学领域中多模态大模型的数据模态使用分类

在医学领域，多模态大模型（MLLMs）可以根据它们使用的数据模态进行分类。这些模型主要分为两大类：最突出的影像模态和其他复杂的非结构化数据类型，如基因序列、时间序列数据和音频记录。

影像

医学领域的多模态大模型研究主要集中在利用影像数据上。研究的目标是开发一个与各种影像模态和任务兼容的通用和自适应模型。BiomedGPT就是一个很好的例子，它提供了一个多功能的人工智能模型，能够整合从CT影像到临床笔记的多样化模态。BiomedGPT的独特之处在于，它将不同输入源的信息封装进一个适用于多种任务的共享多模态词典中。它在预训练和微调阶段都统一采用了序列到序列的范式。此外，任务指令被无缝地整合进输入文本中，消除了对补充参数的需求。在经过多个生物医学数据集和任务的严格测试后，BiomedGPT不仅展示了其在跨任务中有效传播知识的能力，而且在视觉语言任务（如图像描述和视觉问题回答）中设定了新的性能基准。

Med-PaLM Multimodal (Med-PaLM M)进一步展示了一个为解释一系列生物医学数据类型而设计的连贯模型，它使用一套一致的模型权重处理多种任务。为了解决缺乏全面的多模态医学基准的问题，它引入了MultiMedBench，这是一个全面的开源多模态医学基准。这个基准覆盖了语言、医学影像和基因组学，包含了广泛的任务，如问题回答、视觉问题回答、医学影像分类、放射学报告的创建和总结以及基因变异识别。在这个基础上，Med-PaLM M引入了一个多功能的多模态序列到序列架构，能够顺利整合多样化的生物医学数据。模型的通用语言解码器提供了固有的灵活性，使其能够在统一的生成框架内处理各种生物医学任务。特别是即使没有针对特定任务的微调，Med-PaLM M在几个MultiMedBench任务中也匹配或超过了专用模型。该模型不仅在性能指标上表现出色，还展示了直观的医学推理能力、对新概念和责任的适应性以及有效的知识转移能力。这强调了其在生物医学数据有限的领域中的广阔潜力。

RadFM作为放射学的基础模型，策划了一个广泛的多模态数据集MedMD，包含大约X个医学扫描。这个数据集包括二维（2D）扫描和三维（3D）放射影像，每个都伴随着文本叙述，如放射学报告、视觉语言指令或重要的诊断标签。RadFM的独特之处在于，它作为一个文本生成模型，条件是视觉输入，巧妙地将自然语言与2D或3D医学影像融合。它的输出主要是自然语言形式，满足一系列医学任务的需求。此外，RadFM还提出了一个全面的放射学基准，涵盖了从不同放射模态和解剖部门的疾病识别、报告起草和视觉问题回答等一系列临床职责。同样在放射学领域，ELIXR采用了一个与语言对齐的图像编码器，并巧妙地将其与一个稳定的大模型（特别是PaLM 2）集成，使其能够处理一系列任务。这种轻量级适配器架构在与相应的自由文本放射学报告配对的图像上进行训练，这些图像来自MIMIC-CXR数据集。这种配置强调了与大模型对齐的多模态模型的潜力，展示了如何结合胸部X光和相关的放射学报告来解决众多医学任务，包括视觉问题回答和放射学报告质量评估。

最近在GPT-4系列中的进展，GPT-4V，引入了对多模态输入的支持，由于其潜在的有效性，立即引起了广泛关注。Wu等人进行了对GPT-4V在多模态医学诊断中的性能进行了深入评估，涵盖了17个人体系统，并使用了8种常见于日常临床实践的不同模态的图像。研究人员仔细检查了GPT-4V处理各种临床任务的能力，评估了其在有无患者病史的情况下的熟练程度，并涵盖了成像模态和解剖识别、疾病诊断、报告生成和疾病定位等活动。虽然该模型在区分医学模态和识别解剖结构方面表现出色，但在疾病诊断和制作详细的医学报告方面面临挑战。这项研究强调了尽管在大型多模态模型中的计算机视觉和自然语言处理取得了相当大的进展，但这些工具在有效整合到现实世界的医学应用和临床决策中之前，仍然存在相当大的差距。然而，至关重要的是要认识到这项研究的局限性，因为真实的临床环境主要使用3D DICOM格式的放射学图像，而GPT-4V一次只能处理多达四个2D图像，需要选择2D关键切片或小补丁进行病理学分析。

其他模态

在医疗护理中，临床医生经常分析各种数据类型，不仅限于医学影像，还包括临床笔记、实验室测试、生命体征、基因组学和其他观察指标。因此，有效解读这些庞大的非结构化数据对于将多模态大模型整合到医疗保健中至关重要。

基因组学

受到大模型迁移学习范式的启发，Theodoris等人提出了Geneformer。这个模型在大约3000万个单细胞转录组的大量语料库上进行预训练，允许在数据有限的网络生物学场景中进行特定于上下文的预测。

音频

在Huang等人最近的一项综述中，探索了多模态大模型在牙科中的潜在应用。作者概述了两种主要的部署方法：自动牙科诊断和跨模态牙科诊断，阐述了它们的预期效用。值得注意的是，一个配备有跨模态编码器的大模型可以处理多源数据，并利用先进的自然语言推理能力来处理复杂的临床任务。除了视觉语言整合领域之外，他们强调了患者的声音在医学诊断中的重要性，与影像和对话相结合。他们说明了如何将不同患者的波形和频谱图输入到像GPT-4这样的预训练大模型中，以诊断潜在的疾病并评估其严重程度。在这里，音频数据具有双重目的：检测声音异常和理解患者叙述。在声音异常检测中，系统捕获患者的声音输入，生成波形和频谱图，然后进行幅度和频率分析。对于叙述理解，通过语音识别技术将患者的叙述转录成文本。然后，可以提取诸如描述的症状等重要信息，并将其整理成简洁的报告或要点，供临床医生参考。

HeLM展示了多模态大模型在提供个性化医疗中的价值。专门设计用于处理高维临床数据进行疾病风险评估的HeLM，采用专门的编码器将不同的数据转换为大模型的令牌嵌入空间，而更简单的表格数据则被序列化为文本格式。HeLM将人口统计数据和临床数据（包括详细的时间序列数据）无缝融合，以预测疾病风险。它在某些条件下的零样本和少样本学习中的出色表现，再次证实了大模型可以为医疗保健做出巨大贡献的基础知识。

表 2 总结了医学中多模态大模型的情况。这个表格列出了不同的模型、它们处理的模态、任务、基础模型、样本大小和数据来源。例如，BiomedGPT能够处理放射学和病理学的视觉问题回答（VQA）和图像描述任务。而Med-PaLM M能够处理包括放射学、病理学、乳腺摄影、基因组学、皮肤病学等在内的多种生物医学数据类型，并执行多种任务，如问题回答、VQA、报告总结和生成、基因变异呼叫等。

医学领域的LLM驱动自主Agent

尽管像ChatGPT、GPT-4和Med-PaLM M这样的LLM在医学领域取得了进展，它们主要关注对话元素和基本信息检索。此外，专门的多模态LLM需要大量的多模态数据进行训练，在医疗领域这些数据很稀缺。因此，这些模型往往是任务特定的，它们的对话能力限制在训练主题内。由于个性化、知识更新和参与自主顺序思考、战略规划和复杂问题解决方面的障碍，它们尚未完全准备好作为全面的医疗Agent，所有这些对于临床实践中的医生都是必需的。开发能够驾驭临床复杂性的LLM驱动自主Agent值得探索。

表格 3 概述了LLM驱动自主Agent的关键组成部分，这些研究分为两个主要类别：一是专注于为医学应用开发全面的AI Agent，二是旨在增强AI Agent在医疗保健中的个别功能。

评估方法

确保LLM在医学中的有效性和安全性至关重要。一个成熟的评估框架有两个主要目的：一是防范在高风险的医疗领域可能出现的不准确或误判，二是提供清晰的基准和指标，推动持续的研究和发展。在此框架内，评估LLM可以根据问题类型分为闭集和开集两类。

闭集评估

闭集问题有预定义和有限的答案选项。它们的评估通常使用基准适应数据集，性能指标来源于这些标准。例如，LLaVA-Med使用VQA-RAD和SLAKE等数据集测量闭集问题的准确性。评估设置通常使用零样本方法或微调。前者采用涵盖各种任务的一系列数据集，将它们分为“保留在内”（用于训练）和“保留在外”集（用于测试）。在“保留在内”集上训练后，测量在未见数据集或任务上的性能。相比之下，微调在特定领域任务评估中更常见，如LLaVA-Med在生物医学VQA上的结果所示。

开集评估

开集问题允许更广泛的响应范围，使LLM在这种情况下类似于聊天机器人。鉴于内容的多样性，评估这些响应是多方面的。指标涵盖标准措施、专家评审、模型评分和其他独特方面。模型应优先考虑临床相关性，确保其信息直接影响患者护理。准确性、安全性、可解释性、伦理考虑和可扩展性也至关重要，确保模型的预测是可信的，并且广泛适用。

标准指标

NLP社区建立的标准指标通常用于评估LLM的语言输出。这些包括F1分数、准确性、精确度、召回率、BLEU、METEOR和ROUGE分数。例如，BLEU评估模型输出和参考之间的单词和短语重叠，而METEOR测量生成摘要和参考之间的词汇和语义相似性。这些指标范围从0.0到1.0，反映了生成输出与参考答案的匹配程度。

专家评估

在医疗保健领域，模型评估超越了BLEU和ROUGE等标准指标，因为当人类评估与自动化基准背离时，存在明显差异。Med-PaLM的发现强调，即使是表现最好的模型，如Flan-PaLM，也可能不总是符合临床医生的偏好。引入针对临床放射学的定制指标，并由专家评估临床相关性等方面，提供了更实际的评估。Yuan等人和Xu等人开发了基于临床评估的指标，以进一步细化模型评估。健全的评估过程从试点研究开始，然后是专家同行评审，最后是现实世界的临床测试。这一全面框架不仅确保了模型的准确性，还确保了其适用性和安全性。一旦模型通过了严格的审查，就可以逐渐整合到临床工作流程中，从总结医疗记录或协助诊断等任务开始，但始终在医疗专业人员的监督下进行。

随着技术的进步，期待LLM能够更好地融入医疗工作流程，成为医生和医疗专业人员的有力助手。然而，这需要持续的研究、评估和跨学科合作，以确保这些强大的工具能够在保护患者安全和隐私的同时，最大化其在医疗保健中的潜力。

论文链接：https://www.sciencedirect.com/science/article/pii/S2950347724000264?via%3Dihub#sec0120

查看全文

http://www.mrgr.cn/news/54017.html