AI推介-大语言模型LLMs之RAG(检索增强生成)论文速览(arXiv方向):2024.07.20-2024.08.15
文章目录~
- 1.W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering
- 2.Graph Retrieval-Augmented Generation: A Survey
- 3.Extracting Sentence Embeddings from Pretrained Transformer Models
- 4.A New Pipeline For Generating Instruction Dataset via RAG and Self Fine-Tuning
- 5.FiSTECH: Financial Style Transfer to Enhance Creativity without Hallucinations in LLMs
- 6.Hybrid Student-Teacher Large Language Model Refinement for Cancer Toxicity Symptom Extraction
- 7.EfficientRAG: Efficient Retriever for Multi-Hop Question Answering
- 8.ACL Ready: RAG Based Assistant for the ACL Checklist
- 9.StructuredRAG: JSON Response Formatting with Large Language Models
- 10.A Comparison of LLM Finetuning Methods & Evaluation Metrics with Travel Chatbot Use Case
- 11.KnowPO: Knowledge-aware Preference Optimization for Controllable Knowledge Selection in Retrieval-Augmented Language Models
- 12.Citekit: A Modular Toolkit for Large Language Model Citation Generation
- 13.MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine
- 14.MALADE: Orchestration of LLM-powered Agents with Retrieval Augmented Generation for Pharmacovigilance
- 15.Adaptive Contrastive Decoding in Retrieval-Augmented Generation for Handling Noisy Contexts
- 16.Finch: Prompt-guided Key-Value Cache Compression
- 17.A New Type of Foundation Model Based on Recordings of People's Emotions and Physiology
- 18.Industrial-Grade Smart Troubleshooting through Causal Technical Language Processing: a Proof of Concept
- 19.A Study on the Implementation Method of an Agent-Based Advanced RAG System Using Graph
- 20.Introducing a new hyper-parameter for RAG: Context Window Utilization
- 21.Enhancing Code Translation in Language Models with Few-Shot Learning via Retrieval-Augmented Generation
- 22.Bailicai: A Domain-Optimized Retrieval-Augmented Generation Framework for Medical Applications
- 23.Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach
- 24.Retrieve, Generate, Evaluate: A Case Study for Medical Paraphrases Generation with Small Language Models
- 25.KaPQA: Knowledge-Augmented Product Question-Answering
- 26.RadioRAG: Factual Large Language Models for Enhanced Diagnostics in Radiology Using Dynamic Retrieval Augmented Generation
- 27.An Empirical Study of Retrieval Augmented Generation with Chain-of-Thought
- 28.Customized Retrieval Augmented Generation and Benchmarking for EDA Tool Documentation QA
1.W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering
标题:W-RAG:开放域问题解答 RAG 中的弱监督密集检索
author:Jinming Nian, Zhiyuan Peng, Qifan Wang, Yi Fang
date Time:2024-08-15
paper pdf:http://arxiv.org/pdf/2408.08444v1
摘要:
在开放领域问题解答(OpenQA)等知识密集型任务中,大型语言模型(LLM)往往难以仅依靠其内部(参数)知识生成符合事实的答案。为解决这一局限性,检索增强生成(RAG)系统通过从外部来源检索相关信息来增强 LLM,从而将检索器定位为关键组件。虽然高密度检索表现出了最先进的性能,但其训练却面临着挑战,原因是地面实况证据稀缺,这主要归咎于人工标注的高成本。在本文中,我们提出了 W-RAG,利用 LLM 的排名功能创建弱标签数据,用于训练高密度检索器。具体来说,我们通过评估 LLMs 根据问题和每个段落生成正确答案的概率,对通过 BM25 检索到的前 K K K 段落进行重新排序。然后,排名最高的段落被用作高密度检索的正面训练示例。我们在四个公开的 OpenQA 数据集上进行的综合实验表明,与基线模型相比,我们的方法提高了检索和 OpenQA 的性能。
2.Graph Retrieval-Augmented Generation: A Survey
标题:图检索-增强生成:调查
author:Boci Peng, Yun Zhu, Yongchao Liu, Xiaohe Bo, Haizhou Shi, Chuntao Hong, Yan Zhang, Siliang Tang
publish:Ongoing work. Compared to the first version, several references have
been added and a GitHub repository link has been provided
date Time:2024-08-15
paper pdf:http://arxiv.org/pdf/2408.08921v2
摘要:
最近,检索增强生成(RAG)在应对大型语言模型(LLM)的挑战方面取得了显著成功,而无需重新训练。通过参考外部知识库,RAG 完善了 LLM 的输出,有效缓解了 “幻觉”、特定领域知识缺乏和信息过时等问题。然而,数据库中不同实体之间复杂的关系结构给 RAG 系统带来了挑战。为此,GraphRAG 利用实体间的结构信息,实现更精确、更全面的检索,捕捉关系知识,促进更准确的、上下文感知的响应。鉴于 GraphRAG 的新颖性和潜力,对当前技术进行系统回顾势在必行。本文首次全面概述了 GraphRAG 方法。我们将 GraphRAG 工作流程正规化,包括基于图形的索引、图形引导的检索和图形增强的生成。然后,我们概述了每个阶段的核心技术和训练方法。此外,我们还研究了 GraphRAG 的下游任务、应用领域、评估方法和工业用例。最后,我们探讨了未来的研究方向,以激发进一步的探索并推动该领域的进展。为了跟踪该领域的最新进展,我们在 \url{https://github.com/pengboci/GraphRAG-Survey} 建立了一个资源库。
3.Extracting Sentence Embeddings from Pretrained Transformer Models
标题:从预训练的变换器模型中提取句子嵌入
author:Lukas Stankevičius, Mantas Lukoševičius
date Time:2024-08-15
paper pdf:http://arxiv.org/pdf/2408.08073v1
摘要:
背景/简介:预训练的转换器模型在许多自然语言处理任务中大放异彩,因此被期望能够承担输入句子或文本意义的表示。这些句子级嵌入在检索增强生成中也很重要。但是,常用的普通平均法或提示模板是否能将其充分展现出来呢? 方法:鉴于 BERT 的 1.1 亿个参数来自多层和多个标记的隐藏表征,我们尝试了各种方法来提取最佳句子表征。我们测试了各种标记聚合和表征后处理技术。我们还测试了使用通用维基文本数据集来补充 BERT 句子表征的多种方法。所有方法都在 8 项语义文本相似性 (STS)、6 项短文本聚类和 12 项分类任务中进行了测试。我们还在其他静态模型(包括随机标记表征)上评估了我们的表征塑造技术。 结果对于所考虑的所有模型,所提出的表征提取方法都提高了 STS 和聚类任务的性能。基于静态标记的模型,尤其是 STS 任务中的随机嵌入模型的性能有了非常大的提高,几乎达到了 BERT 派生表示法的性能。 结论:我们的工作表明,对于多种任务,使用表征塑造技术的简单基线可以达到甚至超过更复杂的基于 BERT 的模型,或者能够提高它们的性能。
4.A New Pipeline For Generating Instruction Dataset via RAG and Self Fine-Tuning
标题:通过 RAG 和自我微调生成指令数据集的新管道
author:Chih-Wei Song, Yu-Kai Lee, Yin-Te Tsai
publish:5 pages, SCA 2024: The 7th IEEE International Workshop on Smart
Computing & Applications
date Time:2024-08-12
paper pdf:http://arxiv.org/pdf/2408.05911v1
摘要:
近年来,随着大型语言模型的快速发展,人们对能够满足企业和组织独特需求的特定领域代理(Domain-specific Agents)的需求与日俱增。与力求广泛覆盖面的通用模型不同,这些专业代理依赖于为其目标应用量身定制的重点数据集。本研究提出了一个管道,利用 LLM 和检索增强生成相关框架的强大功能,构建高质量的指令数据集,以便使用自定义文档集对特定领域进行微调。通过摄取特定领域的文档,该管道生成了相关的、与上下文相适应的指令,从而有效地创建了一个综合数据集,用于在目标领域对 LLM 进行微调。这种方法克服了传统数据集创建方法的局限性,因为传统方法通常依赖于可能会引入噪音和不相关数据的人工整理或网络抓取技术。值得注意的是,我们的管道提供了一种动态解决方案,可以快速适应特定领域文档集的更新或修改,从而无需进行完全的重新训练。此外,它还能从有限的初始文档集生成指令数据集,从而解决了数据稀缺的难题,适用于缺乏全面数据集的不受欢迎或专业领域。作为案例研究,我们将这种方法应用于精神病学领域,这是一个需要专业知识和敏感处理病人信息的领域。由此产生的经过微调的 LLM 展示了所建议方法的可行性,并强调了其在各行业和领域广泛应用的潜力,在这些行业和领域中,量身定制、准确且与上下文相关的语言模型是必不可少的。
5.FiSTECH: Financial Style Transfer to Enhance Creativity without Hallucinations in LLMs
标题:FiSTECH:财务风格转移,提高法律硕士的创造力,避免产生幻觉
author:Sohini Roychowdhury, Marko Krema, Brian Moore, Xingjian Lai, Dike Effedua, Bharat Jethwani
publish:9 pages, 13 figures, 5 tables, conference
date Time:2024-08-09
paper pdf:http://arxiv.org/pdf/2408.05365v2
摘要:
使用通用大型语言模型(LLM)生成财务报告面临两大挑战,即缺乏复合句和幻觉。先进的提示工程和检索增强生成(RAG)技术在解决这些写作风格差异方面作用有限。在这项工作中,我们提出了一种新颖的两阶段微调(FT)流程,将公共领域的财务报告处理为提示完成语,并使用简单的 LLM 提示语进行增强,然后使用最少的指令和表格数据输入生成分节财务报告。所建议的微调过程利用了 LLM 的自学能力,在第一阶段允许出现幻觉,并在第二阶段显示更正。我们提出的微调框架使问题答案的正确率提高了一倍,幻觉减少了 50%以上。此外,两阶段 FT 模型的困惑度较低,ROUGE、TER 和 BLEU 分数有所提高,创造力和知识密度较高,不确定性和交叉熵较低。因此,所提出的框架可以推广到特定领域的微调任务中,并将微调成本降至最低。
6.Hybrid Student-Teacher Large Language Model Refinement for Cancer Toxicity Symptom Extraction
标题:用于癌症毒性症状提取的师生混合大语言模型改进
author:Reza Khanmohammadi, Ahmed I. Ghanem, Kyle Verdecchia, Ryan Hall, Mohamed Elshaikh, Benjamin Movsas, Hassan Bagher-Ebadian, Bing Luo, Indrin J. Chetty, Tuka Alhanai, Kundan Thind, Mohammad M. Ghassemi
date Time:2024-08-08
paper pdf:http://arxiv.org/pdf/2408.04775v1
摘要:
大型语言模型(LLMs)为临床症状提取提供了巨大的潜力,但其在医疗环境中的应用却受到隐私问题、计算限制和运营成本的制约。本研究采用一种新颖的迭代改进方法,对用于癌症毒性症状提取的紧凑型 LLM 进行了优化。我们采用学生-教师架构,利用 Zephyr-7b-beta 和 Phi3-mini-128 作为学生模型,GPT-4o 作为教师模型,在及时细化、检索增强生成(RAG)和微调策略之间进行动态选择。我们对 294 份临床笔记进行了实验,涵盖了 12 种放疗后毒性症状,证明了这种方法的有效性。RAG 方法被证明是最有效的方法,在细化过程中,Zephyr-7b-beta 的平均准确率从 0.32 提高到 0.73,Phi3-mini-128 的平均准确率从 0.40 提高到 0.87。在测试集中,两个模型在不同症状上的准确率都提高了约 0.20。值得注意的是,Zephyr 的改进成本比 GPT-4o 低 45 倍,比 Phi3 低 79 倍。这些结果凸显了迭代改进技术在提高紧凑型 LLM 临床应用能力方面的潜力,在医疗保健环境中实现了性能、成本效益和隐私保护之间的平衡。
7.EfficientRAG: Efficient Retriever for Multi-Hop Question Answering
标题:EfficientRAG:用于多跳问题解答的高效检索器
author:Ziyuan Zhuang, Zhiyang Zhang, Sitao Cheng, Fangkai Yang, Jia Liu, Shujian Huang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
publish:20 pages, 4 figures
date Time:2024-08-08
paper pdf:http://arxiv.org/pdf/2408.04259v1
摘要:
检索增强生成(RAG)方法在处理多跳查询等复杂问题时会遇到困难。虽然迭代检索方法可以通过收集更多信息来提高性能,但目前的方法往往依赖于对大型语言模型(LLM)的多次调用。在本文中,我们介绍了用于多跳问题解答的高效检索器 EfficientRAG。EfficientRAG 每次迭代时无需调用 LLM 即可生成新的查询,并能过滤掉不相关的信息。实验结果表明,在三个开放域多跳问题解答数据集上,EfficientRAG 超越了现有的 RAG 方法。
8.ACL Ready: RAG Based Assistant for the ACL Checklist
标题:ACL 准备就绪:基于 RAG 的 ACL 核对表助手
author:Michael Galarnyk, Rutwik Routu, Kosha Bheda, Priyanshu Mehta, Agam Shah, Sudheer Chava
date Time:2024-08-07
paper pdf:http://arxiv.org/pdf/2408.04675v1
摘要:
ARR负责任的NLP研究核对表网站指出,“核对表旨在鼓励负责任研究的最佳实践,解决研究伦理、社会影响和可重复性等问题”。回答这些问题为作者提供了一个反思自己工作的机会,并确保任何共享的科学资产都遵循最佳实践。理想情况下,在投稿前考虑核对表会对研究论文的撰写产生有利影响。然而,核对表往往是在最后一刻才填写的。在这项工作中,我们介绍了 ACLReady,这是一个检索增强语言模型应用程序,可用于授权作者反思自己的工作,并协助作者填写 ACL 核对表。为了测试该系统的有效性,我们对 13 名用户进行了定性研究,结果显示 92% 的用户认为该应用程序有用且易于使用,77% 的用户认为该应用程序提供了他们所期望的信息。我们的代码以 CC BY-NC 4.0 许可在 GitHub 上公开发布。
9.StructuredRAG: JSON Response Formatting with Large Language Models
标题:StructuredRAG:利用大型语言模型进行 JSON 响应格式化
author:Connor Shorten, Charles Pierse, Thomas Benjamin Smith, Erika Cardenas, Akanksha Sharma, John Trengrove, Bob van Luijt
publish:Preprint. 10 pages, 6 figures
date Time:2024-08-07
paper pdf:http://arxiv.org/pdf/2408.11061v1
摘要:
大型语言模型(LLM)生成 JSON 等结构化输出的能力对其在复合人工智能系统中的应用至关重要。然而,评估和改进这种能力仍然具有挑战性。在这项工作中,我们介绍了 StructuredRAG,这是一个包含六项任务的基准,旨在评估 LLM 遵循响应格式指令的熟练程度。我们采用两种不同的提示策略,对两种最先进的 LLM(Gemini 1.5 Pro 和 Llama 3 8B-instruct)进行了评估。我们将这两种提示策略分别称为 f-String 和 Follow the Format (FF) 提示。在 24 次实验中,我们发现平均成功率为 82.55%。我们还发现,在不同任务、模型和提示策略中,成功率的差异很大,从 0% 到 100% 不等。我们发现,Llama 3 8B-instruct 的性能往往与 Gemini 1.5 Pro 相当。我们注意到,任务复杂程度对性能有很大影响,涉及列表或复合对象输出的任务更具挑战性。我们的研究结果突出表明,有必要进一步研究如何提高 LLM 中结构化输出生成的可靠性和一致性。我们已在 github.com/weaviate/structured-rag 上开源了我们的实验代码和结果。
10.A Comparison of LLM Finetuning Methods & Evaluation Metrics with Travel Chatbot Use Case
标题:以旅行聊天机器人为例,比较 LLM 微调方法和评估指标
author:Sonia Meyer, Shreya Singh, Bertha Tam, Christopher Ton, Angel Ren
date Time:2024-08-07
paper pdf:http://arxiv.org/pdf/2408.03562v1
摘要:
本研究比较了大语言模型(LLM)微调方法,包括量化低等级适配器(QLoRA)、检索增强微调(RAFT)和来自人类反馈的强化学习(RLHF),此外还比较了LLM评估方法,包括 "黄金答案 "的端到端(E2E)基准方法、传统自然语言处理(NLP)指标、RAG评估(Ragas)、OpenAI GPT-4评估指标,以及人类评估。旅游数据集来源于 Reddit API,通过请求旅游相关子论坛的帖子来获取旅游相关的对话提示和个性化旅游体验,并针对每种微调方法进行增强。我们使用了两个用于微调研究的预训练 LLM:LLaMa 2 7B 和 Mistral 7B。QLoRA 和 RAFT 应用于这两个预训练模型。根据上述指标对这些模型的推论进行了广泛评估。根据人类评估和一些 GPT-4 指标,最佳模型是 Mistral RAFT,因此对其进行了来自人类反馈的强化学习(RLHF)训练,最终将其评定为最佳模型。我们的主要发现有1)定量和 Ragas 指标与人类评估不一致;2)开放人工智能 GPT-4 评估与人类评估最为一致;3)让人类参与评估至关重要;4)传统 NLP 指标不足;5)Mistral 总体上优于 LLaMa;6)RAFT 优于 QLoRA,但仍需要后处理;7)RLHF 显著提高了模型性能。下一步工作包括提高数据质量、增加数据量、探索 RAG 方法,以及将数据收集重点放在特定城市上,这将通过缩小重点范围来提高数据质量,同时创造出有用的产品。
11.KnowPO: Knowledge-aware Preference Optimization for Controllable Knowledge Selection in Retrieval-Augmented Language Models
标题:KnowPO:检索增强语言模型中可控知识选择的知识感知偏好优化
author:Ruizhe Zhang, Yongxin Xu, Yuzhen Xiao, Runchuan Zhu, Xinke Jiang, Xu Chu, Junfeng Zhao, Yasha Wang
date Time:2024-08-06
paper pdf:http://arxiv.org/pdf/2408.03297v2
摘要:
通过整合外部知识,检索增强生成(RAG)已经成为一种有效的策略,可以缓解大型语言模型(LLM)在处理知识密集型任务时遇到的幻觉问题。然而,在整合外部非参数支持证据和内部参数知识的过程中,可能会出现不可避免的知识冲突,从而导致模型响应的混乱。为了提高 LLM 在各种情况下的知识选择能力,一些研究侧重于通过指令调整来完善 LLM 的行为模式。然而,由于缺乏明确的负面信号和比较目标,以这种方式进行微调的模型可能仍然会表现出不可取的行为,如上下文无知和上下文过度包容。为此,我们提出了一种知识感知偏好优化策略(Knowledge-aware Preference Optimization),称为 KnowPO,旨在实现基于真实检索场景中上下文相关性的自适应知识选择。具体来说,我们提出了一种构建知识冲突数据集的通用范式,它全面涵盖了各种错误类型,并学会了如何通过偏好优化方法来避免这些负面信号。同时,我们提出了重写策略和数据比例优化策略来解决偏好失衡问题。实验结果表明,在处理知识冲突方面,KnowPO优于之前的方法37%以上,同时在各种分布外数据集上也表现出强大的泛化能力。
12.Citekit: A Modular Toolkit for Large Language Model Citation Generation
标题:Citekit:大型语言模型引文生成模块化工具包
author:Jiajun Shen, Tong Zhou, Suifeng Zhao, Yubo Chen, Kang Liu
publish:7 pages, 13 figures
date Time:2024-08-06
paper pdf:http://arxiv.org/pdf/2408.04662v1
摘要:
让大语言模型(LLM)在问题解答(QA)任务中生成引文是一种新兴模式,其目的是在 LLM 利用外部参考资料生成答案时,提高其回答的可验证性。然而,目前还没有一个统一的框架来标准化和公平地比较不同的引文生成方法,这就导致难以复制不同的方法和进行全面评估。为了解决上述问题,我们引入了一个开源的模块化工具包(name),旨在促进现有引文生成方法的实施和评估,同时促进新方法的开发,以提高法学硕士成果的引文质量。该工具具有很强的可扩展性,用户可以利用 4 个主要模块和 14 个组件来构建管道,评估现有方法或创新设计。我们用两个最先进的 LLM 和 11 个引文生成基线进行了实验,结果表明不同模块在提高答案准确性和引文质量方面的优势各不相同,同时也证明了提高粒度的挑战性。基于对各组件有效性的分析,我们提出了一种新方法–self-RAG \snippet,以获得平衡的答案准确性和引用质量。Citekit 发布于 https://github.com/SjJ1017/Citekit。
13.MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine
标题:MedTrinity-25M:具有多粒度注释的大规模多模态医学数据集
author:Yunfei Xie, Ce Zhou, Lang Gao, Juncheng Wu, Xianhang Li, Hong-Yu Zhou, Sheng Liu, Lei Xing, James Zou, Cihang Xie, Yuyin Zhou
publish:The project page is at https://yunfeixie233.github.io/MedTrinity-25M
date Time:2024-08-06
paper pdf:http://arxiv.org/pdf/2408.02900v1
摘要:
本文介绍了 MedTrinity-25M,这是一个全面、大规模的医学多模态数据集,涵盖 10 种模态的 2500 多万张图像,并对 65 种以上的疾病进行了多粒度注释。这些丰富的注释既包括全局文本信息,如疾病/病变类型、模式、特定区域描述和区域间关系,也包括感兴趣区域(ROI)的详细局部注释,包括边界框和分割掩码。现有方法受限于图像-文本配对的可用性,与此不同,我们开发了首个自动管道,通过生成多粒度视觉和文本注释(以图像-ROI-描述三元组的形式)来扩展多模态数据,而无需任何配对的文本描述。具体来说,我们收集了来自 90 多个不同来源的数据,对其进行了预处理,并使用特定领域的专家模型来识别与异常区域相关的 ROI。然后,我们建立了一个全面的知识库,并促使多模态大语言模型以识别出的 ROI 为指导进行检索增强生成,从而产生多语法文本描述。与现有数据集相比,MedTrinity-25M 提供了最丰富的注释,支持字幕和报告生成等一系列多模态任务,以及分类和分割等以视觉为中心的任务。在 MedTrinity-25M 上进行预训练后,我们的模型在 VQA-RAD 和 PathVQA 上达到了最先进的性能,超过了多模态大型语言模型和其他具有代表性的 SoTA 方法。该数据集还可用于支持多模态医疗人工智能模型的大规模预训练,为未来医疗领域基础模型的开发做出贡献。
14.MALADE: Orchestration of LLM-powered Agents with Retrieval Augmented Generation for Pharmacovigilance
标题:MALADE:利用检索增强生成技术协调 LLM 驱动的药物警戒代理
author:Jihye Choi, Nils Palumbo, Prasad Chalasani, Matthew M. Engelhard, Somesh Jha, Anivarya Kumar, David Page
publish:Paper published at Machine Learning for Healthcare 2024 (MLHC’24)
date Time:2024-08-03
paper pdf:http://arxiv.org/pdf/2408.01869v1
摘要:
在大语言模型(LLM)时代,由于其卓越的文本理解和生成能力,为开发基于 LLM 的新方法来合成、提取和总结值得信赖的医学知识提供了前所未有的机遇。本文重点讨论药物警戒(PhV)问题,从医学文献、临床笔记和药物标签等不同文本来源中识别药物不良事件(ADE)的意义和挑战在于此。遗憾的是,这项任务受到各种因素的阻碍,包括药物和结果术语的差异,以及 ADE 描述经常被埋没在大量的叙述性文本中。我们介绍了 MALADE,这是首个由 LLM 支持的有效协作多代理系统,它采用了检索增强生成技术,用于从药物标签数据中提取 ADE。该技术包括用从文本资源中提取的相关信息来增强 LLM 的查询,并指示 LLM 根据增强的数据编写响应。MALADE 是一种与 LLM 无关的通用架构,其独特功能包括(1) 利用各种外部资源,如医学文献、药物标签和 FDA 工具(如 OpenFDA 药物信息 API),(2) 以结构化格式提取药物-结果关联以及关联强度,(3) 为已建立的关联提供解释。MALADE 使用 GPT-4 Turbo 或 GPT-4o 和 FDA 药物标签数据进行实例化,与 ADEs 的 OMOP 地面实况表相比,其 ROC 曲线下面积达到 0.90,证明了其有效性。我们的实现利用了 Langroid 多代理 LLM 框架,可在 https://github.com/jihyechoi77/malade 上找到。
15.Adaptive Contrastive Decoding in Retrieval-Augmented Generation for Handling Noisy Contexts
标题:检索增强生成中的自适应对比解码,用于处理噪声语境
author:Youna Kim, Hyuhng Joon Kim, Cheonbok Park, Choonghyun Park, Hyunsoo Cho, Junyeob Kim, Kang Min Yoo, Sang-goo Lee, Taeuk Kim
date Time:2024-08-02
paper pdf:http://arxiv.org/pdf/2408.01084v1
摘要:
在知识密集型任务(如开放域问题解答)中使用大型语言模型(LLM)时,外部语境可以弥补外部知识与 LLM 参数知识之间的差距。最近的研究已经开发出了对比解码方法,以在 LLM 的参数知识之上放大语境知识。虽然这些方法可以在提供相关语境时产生真实的反应,但在面对嘈杂的语境时却容易出现漏洞。我们扩展了以前的研究范围,将嘈杂语境也包括在内,并提出了自适应对比解码(ACD),以有效利用语境的影响。与基线相比,自适应对比解码在开放域问题解答任务中取得了改进,尤其是在检索增强生成中不受嘈杂语境干扰的鲁棒性方面。
16.Finch: Prompt-guided Key-Value Cache Compression
标题:芬奇提示引导的键值缓存压缩
author:Giulio Corallo, Paolo Papotti
publish:Accepted for publication at TACL - pre-MIT Press publication version
date Time:2024-07-31
paper pdf:http://arxiv.org/pdf/2408.00167v2
摘要:
最近的大型语言模型应用,如检索增强生成和聊天机器人,越来越需要处理较长的输入语境。然而,这种需求受到固有限制的阻碍。从架构上讲,模型受限于训练过程中定义的上下文窗口。此外,处理大量文本需要大量 GPU 内存。我们提出了一种名为 Finch 的新方法,利用预先训练的自我关注模型权重来压缩输入上下文。给定一个提示和一段长文本,Finch 会以提示为条件,迭代式地识别文本块中最相关的键(K)和值(V)对。在上下文窗口限制的空间内,KV 缓存最终包含长文本的压缩版本。我们的建议使模型即使在高压缩(高达 93 倍)的情况下也能消耗大量输入,同时保持语义的完整性,而无需进行微调。
17.A New Type of Foundation Model Based on Recordings of People’s Emotions and Physiology
标题:基于人们情绪和生理记录的新型基础模型
author:David Gamez, Dionis Barcari, Aliya Grig
publish:12 pages, 2 figures, 3 tables
date Time:2024-07-31
paper pdf:http://arxiv.org/pdf/2408.00030v1
摘要:
基础模型近年来产生了巨大影响,在当前的人工智能热潮中,数十亿美元的资金正投入到这些模型中。比较流行的模型,如 Chat-GPT,是通过互联网上的大量数据进行训练,然后利用强化学习、RAG、提示工程和认知建模等技术对其行为进行微调和增强。这种技术已被用于创建单个人的模型,如 Caryn Marjorie。然而,这些聊天机器人并不是基于人们对环境的实际情感和生理反应,因此充其量只是模仿人物的表面近似。本文介绍了如何通过记录人的所见所闻以及对这些刺激的情绪和生理反应来创建新型基础模型–第一人称基础模型。第一人称基础模型可以将环境刺激映射到人的情绪和生理状态,并将人的情绪和生理状态映射到他们的行为。第一人称基础模型有许多令人兴奋的应用,包括新型推荐引擎、个人助理、生成式对抗网络、约会和招聘。为了获得第一人称基础模型的训练数据,我们开发了一种录音设备,可以捕捉佩戴者的所见所闻以及他们的情绪和生理状态。这种新颖的数据来源有助于解决建立下一代基础模型所需的新数据短缺问题。
18.Industrial-Grade Smart Troubleshooting through Causal Technical Language Processing: a Proof of Concept
标题:通过因果技术语言处理实现工业级智能故障排除:概念验证
author:Alexandre Trilla, Ossee Yiboe, Nenad Mijatovic, Jordi Vitrià
publish:2nd Workshop on Causal Inference and Machine Learning in Practice at
the KDD 2024 Conference. arXiv admin note: text overlap with arXiv:2407.11056
date Time:2024-07-30
paper pdf:http://arxiv.org/pdf/2407.20700v1
摘要:
本文介绍了一种因果诊断方法的开发,该方法以经验回报记录中表达的技术语言为基础,对工业环境进行故障诊断。所建议的方法利用了大型语言模型分布式表示中所包含的矢量化语言知识,以及工业资产的嵌入式故障模式和机制所包含的因果关联。本文介绍了该解决方案的基本概念,该解决方案被视为因果关系感知检索增强生成系统,并在真实世界的预测性维护环境中进行了实验说明。最后,论文讨论了如何提高所使用的因果技术的成熟度,以应对工业中日益复杂的场景所带来的稳健性挑战。
19.A Study on the Implementation Method of an Agent-Based Advanced RAG System Using Graph
标题:利用图表实现基于代理的高级 RAG 系统的方法研究
author:Cheonsu Jeong
date Time:2024-07-29
paper pdf:http://arxiv.org/pdf/2407.19994v3
摘要:
本研究旨在克服现有检索-增强生成(RAG)模型的局限性,实施基于图技术的高级 RAG 系统,开发高质量的生成式人工智能服务,从而改进基于知识的问题解答(QA)系统。虽然现有的 RAG 模型通过利用检索到的信息表现出很高的准确性和流畅性,但它们可能会出现准确性下降的问题,因为它们使用预先加载的知识生成响应而不进行再处理。此外,它们无法在 RAG 配置阶段之后纳入实时数据,从而导致上下文理解和信息偏差问题。为了解决这些局限性,本研究利用图形技术实施了增强型 RAG 系统。该系统旨在有效搜索和利用信息。具体来说,它利用 LangGraph 来评估检索信息的可靠性,并综合各种数据以生成更准确、更完善的回复。此外,本研究还通过实施代码和验证结果,详细解释了系统的操作、关键实施步骤和示例,从而加深了对先进 RAG 技术的理解。这种方法为在企业服务中实施先进的 RAG 系统提供了实用指南,使其成为实际应用的宝贵资源。
20.Introducing a new hyper-parameter for RAG: Context Window Utilization
标题:为 RAG 引入一个新的超参数:上下文窗口利用率
author:Kush Juvekar, Anupam Purwar
date Time:2024-07-29
paper pdf:http://arxiv.org/pdf/2407.19794v2
摘要:
本文为检索增强生成(RAG)系统引入了一个新的超参数,称为 “上下文窗口利用率”(Context Window Utilization)。RAG 系统通过整合从外部知识库中检索到的相关信息来增强生成模型,从而提高生成回复的事实准确性和上下文相关性。检索和处理文本块的大小是影响 RAG 性能的关键因素。本研究旨在确定能最大限度提高答案生成质量的最佳块大小。通过系统实验,我们分析了不同块大小对 RAG 框架效率和效果的影响。我们的研究结果表明,最佳块大小可以在提供足够的上下文和尽量减少无关信息之间取得平衡。这些见解对于加强 RAG 系统的设计和实施至关重要,强调了选择适当的块大小以实现卓越性能的重要性。
21.Enhancing Code Translation in Language Models with Few-Shot Learning via Retrieval-Augmented Generation
标题:通过检索增强生成,用少量学习加强语言模型中的代码翻译
author:Manish Bhattarai, Javier E. Santos, Shawn Jones, Ayan Biswas, Boian Alexandrov, Daniel O’Malley
publish:LLM for code translation
date Time:2024-07-29
paper pdf:http://arxiv.org/pdf/2407.19619v1
摘要:
大型语言模型(LLM)的出现极大地推动了代码翻译领域的发展,实现了编程语言之间的自动翻译。然而,由于对上下文的理解不足,这些模型在完成复杂的翻译任务时往往举步维艰。本文介绍了一种新颖的方法,该方法通过 “少量学习”(Few-Shot Learning)和基于检索的技术来增强代码翻译。通过利用现有代码翻译库,我们动态检索最相关的示例,以指导模型翻译新的代码段。我们的方法基于检索增强生成(RAG),通过提供模型可实时学习的上下文示例,大大提高了翻译质量。与传统的微调方法相比,我们选择了 RAG,因为它能够利用现有代码库或本地存储的代码语料库,从而动态适应各种翻译任务,而无需大量的再训练。我们使用 Starcoder、Llama3-70B Instruct、CodeLlama-34B Instruct、Granite-34B Code Instruct 和 Mixtral-8x22B 等开放 LLM 模型,以及 GPT-3.5 Turbo 和 GPT-4o 等商业 LLM 模型,在各种数据集上进行了广泛的实验,证明我们的方法优于传统的零镜头方法,尤其是在 Fortran 和 CPP 之间的翻译方面。我们还探索了推理过程中提供的不同数量的镜头(即示例),特别是 1、2 和 3 个镜头,以及 RAG 的不同嵌入模型,包括 Nomic-Embed、Starencoder 和 CodeBERT,以评估我们方法的鲁棒性和有效性。
22.Bailicai: A Domain-Optimized Retrieval-Augmented Generation Framework for Medical Applications
标题:Bailicai:面向医疗应用的领域优化检索-增强生成框架
author:Cui Long, Yongbin Liu, Chunping Ouyang, Ying Yu
date Time:2024-07-24
paper pdf:http://arxiv.org/pdf/2407.21055v1
摘要:
大型语言模型(LLM)在自然语言理解方面表现出了非凡的能力,促使人们广泛探索其在不同领域的潜在应用。在医疗领域,开源 LLM 经过特定领域的微调后已显示出适度的功效;但是,它们仍然远远不如 GPT-4 和 GPT-3.5 等专有模型。这些开源模型在特定领域知识的全面性方面存在局限性,并在文本生成过程中表现出 "幻觉 "倾向。为了缓解这些问题,研究人员采用了检索增强生成(RAG)方法,即在保留模型内部参数的同时,从外部知识库中获取背景信息来增强 LLM。然而,文档噪音会对性能产生不利影响,而且 RAG 在医学领域的应用仍处于初级阶段。本研究提出了 "Bailicai "框架:检索增强生成与针对医疗领域优化的大型语言模型的新型集成。Bailicai 框架通过实施四个子模块来增强 LLM 在医学领域的性能。实验结果表明,在多个医疗基准测试中,Bailicai 方法超越了现有的医疗领域 LLM,并超过了 GPT-3.5 的性能。此外,"百利彩 "方法还有效缓解了 LLMs 医学应用中普遍存在的幻觉问题,并改善了传统 RAG 技术在处理不相关或伪相关文档时与噪声相关的难题。
23.Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach
标题:检索增强生成还是长语境 LLM?综合研究和混合方法
author:Zhuowan Li, Cheng Li, Mingyang Zhang, Qiaozhu Mei, Michael Bendersky
date Time:2024-07-23
paper pdf:http://arxiv.org/pdf/2407.16833v1
摘要:
检索增强生成(RAG)一直是大型语言模型(LLM)有效处理过长上下文的有力工具。然而,最近的 LLM(如 Gemini-1.5 和 GPT-4)在直接理解长语境方面表现出了非凡的能力。我们对 RAG 和长语境(LC)LLM 进行了全面比较,旨在充分利用两者的优势。我们使用三种最新的 LLM,在各种公共数据集上对 RAG 和 LC 进行了基准测试。结果显示,在资源充足的情况下,LC 的平均性能始终优于 RAG。然而,RAG 明显更低的成本仍然是其显著优势。基于这一观察结果,我们提出了 “自路由”(Self-Route)方法,这是一种简单而有效的方法,可根据模型的自我反思将查询路由到 RAG 或 LC。Self-Route 可显著降低计算成本,同时保持与 LC 相当的性能。我们的研究结果为使用 RAG 和 LC 的 LLM 的长上下文应用提供了指导。
24.Retrieve, Generate, Evaluate: A Case Study for Medical Paraphrases Generation with Small Language Models
标题:检索、生成、评估:利用小型语言模型生成医学释义的案例研究
author:Ioana Buhnila, Aman Sinha, Mathieu Constant
publish:KnowledgeableLM 2024
date Time:2024-07-23
paper pdf:http://arxiv.org/pdf/2407.16565v1
摘要:
最近,大型语言模型(LLMs)在普通人群中的普及率急剧上升,这可能会导致无法追踪此类模型在医疗相关建议中的使用情况。通过 LLMs 模型生成语言有两个关键问题:首先,LLMs 容易产生幻觉,因此任何医疗用途都需要科学和事实依据;其次,由于 LLMs 模型庞大,对计算资源构成了巨大挑战。在这项工作中,我们介绍了 pRAGe,这是一个使用小语言模型(SLM)生成医学释义的检索增强生成和评估管道。我们研究了小语言模型的有效性以及外部知识库对法语医学释义生成的影响。
25.KaPQA: Knowledge-Augmented Product Question-Answering
标题:KaPQA:知识增强型产品问答
author:Swetha Eppalapally, Daksh Dangi, Chaithra Bhat, Ankita Gupta, Ruiyi Zhang, Shubham Agarwal, Karishma Bagga, Seunghyun Yoon, Nedim Lipka, Ryan A. Rossi, Franck Dernoncourt
publish:Accepted at the ACL 2024 Workshop on Knowledge Augmented Methods for
NLP
date Time:2024-07-22
paper pdf:http://arxiv.org/pdf/2407.16073v1
摘要:
由于大型语言模型(LLM)的最新进展,针对特定领域应用的问题解答最近引起了广泛关注。然而,准确评估这些应用的性能仍然是一项挑战,这主要是由于缺乏能有效模拟真实世界场景的合适基准。为了应对这一挑战,我们引入了两个产品问答(QA)数据集,分别侧重于 Adobe Acrobat 和 Photoshop 产品,以帮助评估现有模型在特定领域产品 QA 任务中的性能。此外,我们还提出了一个新颖的知识驱动 RAG-QA 框架,以提高模型在产品问答任务中的性能。我们的实验表明,与标准的 RAG-QA 方法相比,通过重新制定查询诱导领域知识可以提高检索和生成性能。然而,这种提高是微不足道的,因此也说明了所引入的数据集所带来的挑战。
26.RadioRAG: Factual Large Language Models for Enhanced Diagnostics in Radiology Using Dynamic Retrieval Augmented Generation
标题:RadioRAG:利用动态检索增强生成增强放射学诊断的事实大语言模型
author:Soroosh Tayebi Arasteh, Mahshad Lotfinia, Keno Bressem, Robert Siepmann, Dyke Ferber, Christiane Kuhl, Jakob Nikolas Kather, Sven Nebelung, Daniel Truhn
date Time:2024-07-22
paper pdf:http://arxiv.org/pdf/2407.15621v1
摘要:
大型语言模型(LLM)推动了医学人工智能(AI)领域的发展。然而,LLM 通常会根据静态训练数据集生成过时或不准确的信息。检索增强生成(RAG)通过整合外部数据源来缓解这一问题。以前的 RAG 系统使用预先组装的固定数据库,灵活性有限,而我们开发的放射学 RAG(RadioRAG)是一个端到端的框架,可从权威的放射学在线资源中实时检索数据。我们使用专门的放射学问答数据集(RadioQA)对 RadioRAG 进行了评估。我们评估了各种 LLM 在回答放射学特定问题时的诊断准确性,包括通过 RAG 获取和不通过 RAG 获取额外在线信息的情况。我们使用 RSNA 病例集中的 80 个放射学亚专科问题和 24 个由专家收集的附加问题(这些问题都有正确的黄金标准答案),在使用和不使用 RadioRAG 的情况下提示 LLM(GPT-3.5-turbo、GPT-4、Mistral-7B、Mixtral-8x7B 和 Llama3 [8B 和 70B])。RadioRAG 实时从 www.radiopaedia.org 获取特定语境信息,并将其纳入回复中。在所有 LLM 中,RadioRAG 始终如一地提高了诊断准确率,相对提高幅度从 2% 到 54% 不等。在各放射亚专科,尤其是在乳腺成像和急诊放射学方面,它与没有使用 RAG 的问题解答相匹配,甚至更胜一筹。然而,不同模型的改进程度各不相同;GPT-3.5-turbo 和 Mixtral-8x7B-instruct-v0.1 的改进效果显著,而 Mistral-7B-instruct-v0.2 则没有任何改进,这凸显了其效果的差异性。当 LLM 能够访问其训练数据之外的特定领域数据时,他们将从中受益。在放射学方面,RadioRAG 建立了一个强大的框架,大大提高了放射学问题解答的诊断准确性和真实性。
27.An Empirical Study of Retrieval Augmented Generation with Chain-of-Thought
标题:利用思维链检索增强生成的实证研究
author:Yuetong Zhao, Hongyu Cao, Xianyu Zhao, Zhijian Ou
publish:Accepted by ISCSLP 2024
date Time:2024-07-22
paper pdf:http://arxiv.org/pdf/2407.15569v2
摘要:
自 2022 年底推出 ChatGPT 以来,以 ChatGPT 为代表的生成式对话模型已迅速成为日常生活中必不可少的工具。随着用户期望的提高,增强生成式对话模型解决复杂问题的能力已成为当前研究的焦点。本文深入探讨了 RAFT(检索增强微调)方法在提高生成式对话模型性能方面的有效性。RAFT 将思维链与模型监督微调(SFT)和检索增强生成(RAG)相结合,显著提高了模型的信息提取和逻辑推理能力。我们在多个数据集上评估了 RAFT 方法,并分析了它在各种推理任务中的表现,包括长式问答和短式问答任务、中英文任务以及支持性推理和比较性推理任务。值得注意的是,该方法弥补了以往研究在长式问答任务和中文数据集方面的不足。此外,我们还评估了 RAFT 方法中思维链(CoT)的优势。这项工作为专注于提高生成式对话模型性能的研究提供了宝贵的见解。
28.Customized Retrieval Augmented Generation and Benchmarking for EDA Tool Documentation QA
标题:用于 EDA 工具文档质量保证的定制检索增强生成和基准测试
author:Yuan Pu, Zhuolun He, Tairu Qiu, Haoyuan Wu, Bei Yu
publish:Accepted by ICCAD 2024
date Time:2024-07-22
paper pdf:http://arxiv.org/pdf/2407.15353v2
摘要:
检索增强生成(RAG)通过从外部数据库中获取事实信息来提高生成式人工智能模型的准确性和可靠性,这在以文档为基础的问题解答(QA)任务中得到了广泛应用。现成的 RAG 流程已在通用文档中进行了良好的预训练,但在应用于电子设计自动化 (EDA) 等知识密集型垂直领域时却遇到了重大挑战。为了解决这个问题,本文提出了一个定制的 RAG 框架,以及针对 EDA 工具文档质量保证的三种特定领域技术,包括用于文本嵌入模型微调的对比学习方案、从专有 LLM 中提炼出的重新anker,以及使用高质量领域语料进行微调的生成 LLM。此外,我们还为先进的 RTL-to-GDSII 设计平台 OpenROAD 开发并发布了文档质量保证评估基准 ORD-QA。实验结果表明,我们提出的 RAG 流程和技术在 ORD-QA 和商业工具上都取得了优于同行的性能。我们定制的 RAG 流程的 ORD-QA 基准和训练数据集在 https://github.com/lesliepy99/RAG-EDA 上开源。