HiGPT:异构图语言模型的突破
人工智能咨询培训老师叶梓 转载标明出处
人工智能领域的一大挑战是如何从海量复杂的数据中提取有价值的信息,特别是在处理异构图数据时。异构图由多种类型的节点和边组成,它们之间的相互关系丰富而复杂。传统的图神经网络(GNNs)在处理这类数据时,往往受限于其对特定图结构的依赖,难以适应新的、未见过的数据集。这限制了模型在不同领域和任务中的泛化能力。为了解决这一问题。由香港大学与百度公司联合研究团队提出的HiGPT模型,一个无需针对下游数据集进行微调即可学习的通用大型图模型,为这一问题提供了新的解决方案。
HiGPT模型的核心在于其创新的异构图指令调整范式。该模型通过引入上下文异构图分词器,能够捕捉不同异构图中的语义关系,从而实现模型的自适应。HiGPT还整合了大量异构图指令,使模型能够有效理解复杂的关系异构性,并区分各种类型的图标记。
为了应对模型微调中的数据稀缺问题,研究团队引入了思想混合(Mixture-of-Thought, MoT)指令增强范式。通过生成多样化和信息丰富的指令,有效缓解了数据不足的问题。
论文链接:https://arxiv.org/abs/2402.16024
代码链接:https://github.com/HKUDS/HiGPT
方法
图 1 为 HiGPT 模型的整体架构。HiGPT 利用了一个异构图标记器来将图数据转换为模型可以理解的形式,并通过指令调整技术来提高对图结构和关系的理解和泛化能力。
为了使HiGPT能够适应各种异构图场景,研究者提出了上下文异构图分词器。这种方法能够捕捉不同异构图中存在的多样语义关系,确保统一的处理方式。分词器由两个核心组件构成:上下文参数化异构投影器和参数分配器。上下文投影器利用语言对异构图中不同的节点和边类型进行编码,以促进模型的适应性。同时,参数分配器动态地为分词器分配特定的参数。为了优化分词器的性能并将其无缝集成到HiGPT框架中,研究者采用了简化的文本-图对比学习框架进行预训练。这一预训练过程直接将分词器纳入HiGPT框架,并有效地与大型语言模型(LLM)集成。这种方法增强了分词器的能力,并确保其在整个模型架构中的顺畅运作。
给定一个异构图G,具有特征矩阵X和邻接矩阵A,异构图分词器的目标是编码异构图的隐藏表示,记为H。这是通过函数H = HG-Tokenizer(X, A)实现的,其中𝑓𝑇𝑖表示节点类型𝑇𝑖的隐藏维度。HG-Tokenizer可以采用各种背景HGNN架构实现,如HetGNN、HAN或HGT。然而,这些异构图神经网络的泛化能力受到其固有设计的约束,其中包括针对特定异构图预先定义的参数学习。因此,训练好的HGNN不能直接应用于其他未见过的异构图,这与实现HG-Tokenizer的统一编码目标相悖。
研究者介绍了一种轻量级的文本-图对比对齐范式,用于预训练提出的异构图分词器。这种方法旨在对齐语言和异构结构的建模能力,使分词器与语言模型更好地协作。研究者考虑了表示为C的原始文本内容,其中C = 𝑐𝑖 ∈ R𝑙𝑖 ×𝑑, 1 ≤ 𝑖 ≤ 𝑁,𝑁表示异构图节点X的总数。在这种方法中,采用了对比标签y和交叉熵函数CE(·)。实现采用了多层普通变换器作为LM-Tokenizer(·)。
HiGPT的目标是使语言模型能够直接为下游任务生成预测,这些任务涉及未见过的异构图和相应的指令。自然语言指令首先被分词器编码成文本嵌入,记为XI = LM-tokenizer(instruction)。为了对齐维度,研究者采用了一个投影器,将图标记映射到与文本嵌入相同的维度,由XG = 𝑓P(H)给出,这可以是一个简单的线性层。对于长度为𝐿的序列,研究者确定了生成目标输出XO的概率。
为了使语言模型能够有效区分不同类型的异构图标记和每种类型内的特定节点,基于自然语言指令,研究者提出了使用由异构图-指令对组成的大型“语料库”进行指令预训练。这种方法使微调后的HiGPT具备了对同质和异构图结构的全面理解。
为了定制化语言模型针对特定异构图任务的推理能力,研究者提出了异构性感知微调。这种方法涉及在初始指令预训练阶段之后进行有监督学习,使用特定任务的指令。这能够细化LLM的性能,并将其适应于目标任务对异构图的具体要求。
在异构图学习的实际情况中,数据稀缺常常构成挑战。特别是在使用异构图来模拟推荐系统中的冷启动用户/项目时,用户交互数据的稀疏性限制了监督信号的可用性。为了解决数据稀疏性问题,研究者提出通过纳入增强的图指令来增强HiGPT。借鉴先前的工作,研究者引入了一种新的异构图指令调整方法。这种方法利用提示工程技术,特别是思想混合(Mixture-of-Thought, MoT),来生成多样化和信息丰富的指令。目标是有效克服数据稀缺带来的挑战。图2显示如何通过思维混合(MoT)策略来增强图指令,以解决数据稀缺问题。通过纳入增强的图指令,研究者期望模型增强能够有效处理数据稀疏性。
研究者关注于设计和优化提示,以有效利用语言模型。研究者采用了几种技术来增强语言模型:链式思考(Chain-of-Thought, CoT)、思维树(Tree-of-Thought, ToT)、小组讨论(PanelGPT)和生成知识提示(Generated Knowledge Prompting, GKP)。通过利用这些技术,研究者的目标是增强异构图指令,特别是在数据有限的情况下。
研究者利用七种指令增强策略,每种策略为每个问题-答案对生成七个增强的指令,纳入了思想混合(MoT)的特点。然而,像ChatGPT这样的闭源语言模型可能会产生错误答案,导致指导有误。为了克服这个问题,研究者提出将先验知识,特别是正确答案,纳入提示中。这使得LLM能够模拟生成正确答案,并使用不同的MoT方法产生中间推理步骤。
想要掌握如何将大模型的力量发挥到极致吗?2024年10月26日叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。
留言“参加”即可来叶老师的直播间互动,1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。
实验
研究者们对HiGPT模型进行了全面的评估,以回答几个关键的研究问题:
RQ1:HiGPT在少量样本(few-shot)和零样本(zero-shot)情况下的表现如何与基线方法比较?
RQ2:HiGPT的关键组成部分在不同设置中对其整体性能的贡献程度如何?
RQ3:是否可以利用HiGPT的通用异构性知识,仅通过图指令示例实现图内上下文学习,而无需任何模型优化?
实验在三个基准数据集上进行,即IMDB、DBLP和ACM。IMDB数据集专注于在线电影和电视节目,包含4278部电影、2081名导演和5257名演员。每部电影被归类为动作、喜剧或剧情之一。DBLP数据集包括4057名作者、14328篇论文、7723个术语和20个出版场所,作者分布在数据库、数据挖掘、人工智能和信息检索四个研究领域。ACM数据集包含3025篇论文、5835名作者和56个主题,论文被分类为数据库、无线通信和数据挖掘三个类别。
为了确保所有数据集中节点的特征维度一致,使用预训练的Sentence-BERT将每种类型的节点编码到标准化维度。对于有监督的少量样本节点分类,随机选择每个类别的1、3、5、10、20、40或60个标记节点作为训练集,并保留1000个节点用于验证和测试。评估指标包括Micro-F1、Macro-F1和AUC。
为了全面比较性能,评估了来自三个不同类别的各种最新方法:代表性的同构图神经网络(包括SAGE和GAT)、利用异构图消息传递机制的方法(如HAN、HGT和HetGNN),以及专注于异构图学习的自监督技术(如HGMAE、DMGI和HeCo)。
在三个数据集上执行节点分类任务,探索了少量样本和零样本设置。在少量样本设置中,模型在IMDB数据集上训练,样本数从1到60不等,并在包含1000个样本的IMDB测试集上评估。在零样本设置中,模型在IMDB数据集上以相同的样本数训练,并在分别包含1000个样本的DBLP和ACM数据集上测试。
表2 展示了在有监督和零样本设置中的节点分类实验结果。"-std"和"-cot"分别表示标准测试提示(直接答案)和具有链式思考(Chain-of-Thought, CoT)特性的提示。HiGPT在少量样本设置中一致性地超越了最新的基线,在零样本设置中也显示出显著的改进。
为了评估所提出模块的有效性,逐一移除了HiGPT中的关键技术。结果总结在表3中。消融变体"w/o S1"通过仅在下游任务数据上直接调整指令生成,而"w/o HG"变体则排除了引入异构图标记。这些测试表明,HiGPT在不同样本设置下,尤其是在样本有限的场景下(例如1或3个样本),始终优于这些变体。这归功于引入的图标记,使LLM能够从上下文图中提取高维异构结构信息,显著提高了LLM的准确性。
图内上下文学习(ICL)是一种使用带有任务示例的提示来适应新任务的方法,无需梯度更新。通过向不同IMDB数据集训练的模型添加训练集中的示例,进行了全面测试。"-ICL-1"和"-ICL-2"分别表示一个和两个示例,而"-ICL-DBLP"表示在ACM测试提示之前包含DBLP示例。结果显示,即使只有一个示例,大多数使用图ICL的1-shot模型在有监督和零样本设置中一致性地优于60-shot模型。
图3 展示了HiGPT的图内上下文学习效果,揭示了即使在只有少量训练样本的情况下,通过图内上下文学习,HiGPT也能显著提高其在不同数据集上的泛化能力。
HiGPT的研究不仅推动了异构图学习领域的技术进步,也为未来在更广泛的应用场景中实现有效的信息提取和知识发现提供了新的可能性。