知识图谱论文分享
-
什么是负样本:
- 在这个上下文中,负样本是指那些在不同数据集或知识图谱中表示不同概念或对象的实体对。因为这些实体对不应靠近,因此它们在嵌入空间中的距离应该更远。
- 与正样本(等价实体)不同,负样本不应在嵌入空间中靠近。
-
负样本的生成依据:
- 公式中的负样本生成是基于余弦相似度的。余弦相似度是一个常用的度量,用于衡量两个向量的方向相似度。在嵌入空间中,如果两个实体向量的余弦相似度较高,意味着它们在空间上更为接近;相似度越低,表示它们越不同。
- 在负样本生成过程中,模型会首先计算不同实体对的余弦相似度,然后选择相似度较低的实体对作为负样本。这种做法有助于确保负样本确实是彼此不相关的实体对,以此达到更好的对比效果。
-
负样本生成的目标:
- 通过挑选这些不匹配的实体对作为负样本,可以让模型学会在嵌入空间中拉开匹配与不匹配实体之间的距离。这种训练方式提升了模型区分不同实体对的能力,使它能更精确地将等价的实体对拉近,而将不等价的实体对推远。
负样本生成对模型的作用:
通过基于余弦相似度选择负样本,模型不仅能学到匹配实体的紧密关系,还能明确不匹配实体的距离要求。这种策略帮助模型在嵌入空间中更合理地分布实体,使得等价实体靠近、不匹配实体远离,增强了实体对齐的效果。
假设我们有以下实体和它们的嵌入向量表示(这里是简化的例子,用二维向量表示):
-
等价实体对(正样本):
- ese_ses 表示实体 “狗” 在源数据集中的表示,其向量为 [0.8,0.6]
- ete_tet 表示实体 “狗” 在目标数据集中的表示,其向量为 [0.7,0.7]
它们代表相同的概念(“狗”),因此是等价实体。
-
不匹配实体对(潜在负样本):
它们代表不同的概念(“猫” 和 “汽车”),因此是不匹配的实体对,可以作为负样本。
负样本生成的具体步骤
为了生成负样本对,我们会计算不同实体对之间的余弦相似度。余弦相似度值越高,表示两个向量的方向越接近;越低,表示它们的方向差异越大。
-
计算余弦相似度:
-
计算向量的余弦相似度:
-
选择负样本:
- 在负样本生成中,我们会选择那些与等价实体的方向相差较大的实体对,即余弦相似度较低的实体对。
- 在本例中,“猫” 和 “汽车” 的相似度为 -0.85,明显低于“狗”对“狗”的相似度 0.99,因此可以将 (“猫”, “汽车”) 作为负样本。
生成负样本的效果
在这个过程中,通过选择相似度低的实体对(例如“猫”对“汽车”),我们生成了负样本。这些负样本会被用于训练,以增强模型区分不同实体对的能力,使得在嵌入空间中:
- 匹配的实体对(“狗”对“狗”)的距离更近。
- 不匹配的实体对(“猫”对“汽车”)的距离被拉开,从而在模型训练中增加它们的区分性。
这种基于余弦相似度的负样本生成方式,帮助模型在高维空间中学会区分匹配和不匹配的实体对,从而提升整体对齐效果。