当前位置：首页 > news >正文

【人工智能】ChatGPT多模型感知态识别

news 2025/4/17 14:12:02

ChatGPT辅助细化知识增强！

在这里插入图片描述
多模态命名实体识别（MNER）最近引起了广泛关注。用户在社交媒体上生成大量非结构化内容，主要由图像和文本组成。这些帖子具有与社交媒体相关的固有特征，包括简洁和非正式的写作风格。这些独特的特征对传统的命名实体识别（NER）方法提出了挑战。

一、研究背景

社交媒体上的多模态命名实体识别（MNER）旨在通过结合基于图像的线索来增强文本实体预测。现有的研究主要集中在最大限度地利用相关图像信息或结合显式知识库中的外部知识。

二、模型结构和代码

我的模型主要分为两个阶段。在生成辅助细化知识的阶段，我利用一组有限的预定义人工样本，并采用多模态相似示例感知模块来仔细选择相关实例。然后，将这些选定的示例合并到格式正确的提示中，从而增强为 ChatGPT 提供的启发式指导，以获取精炼的知识。

任务流程

任务公式化
上下文学习

虽然GPT-4可以接受多模态信息输入，但这一功能仅处于内部测试阶段，尚未公开使用。此外，与ChatGPT相比，GPT-4的成本更高，API请求速度较慢。为了提高可复现性，我们仍然选择ChatGPT作为主要的研究对象，并且提供的这一范式也可以用于GPT-4。

为了使ChatGPT能够完成图文多模态任务，使用了先进的多模态预训练模型将图像转换为图像说明。最后将测试输入x设计为以下模板:
在这里插入图片描述

一：启发式生成

预定义的人工样本
使ChatGPT在MNER任务中表现更好的关键在于选择合适的上下文示例。获取准确标注的上下文示例，这些示例能够精确反映数据集的标注风格并提供扩展辅助知识的途径，是一个显著的挑战。直接从原始数据集中获取这些示例并不可行。为了解决这个问题，我采用了随机抽样的方法，从训练集中选择一小部分样本进行人工标注。具体来说，对于Twitter-2017数据集，从训练集中随机抽取200个样本进行人工标注，而对于Twitter-2015数据集，数量为120。标注过程包括两个主要部分。第一部分是识别句子中的命名实体，第二部分是综合考虑图像和文本内容以及相关知识，提供全面的理由说明。在标注过程中遇到的多种情况中，标注者需要从人类的角度正确判断并解释样本。对于图像和文本相关的样本，我们直接说明图像中强调了文本中的哪些实体。对于图像和文本无关的样本，我们直接声明图像描述与文本无关。通过人工标注过程，强调了句子中的实体及其对应的类别。此外，引入了相关的辅助知识来支持这些判断。这个细致的标注过程为ChatGPT提供了指导，使其能够生成高度相关且有价值的回答。
多模态相似示例感知模块
由于GPT的少样本学习能力在很大程度上取决于上下文示例的选择，我设计了多模态相似示例感知（MSEA）模块来选择合适的上下文示例。作为一个经典的多模态任务，MNER的预测依赖于文本和视觉信息的整合。因此，我们将文本和图像的融合特征作为评估相似示例的基本标准。而这种多模态融合特征可以从之前的多模态命名实体识别（MNER）模型中获得。将MNER数据集D和预定义的人工样本
G

在这里插入图片描述

在以往的研究中，经过交叉注意力投射到高维潜在空间的融合特征H会直接输入到解码层，以进行结果预测。我们的模型选择HH作为相似示例的判断依据，因为在高维潜在空间中相近的示例更有可能具有相同的映射方式和实体类型。计算测试输入与每个预定义人工样本的融合特征H的余弦相似度。然后，选择前N个相似的预定义人工样本作为上下文示例，以启发ChatGPT生成辅助的精炼知识：
在这里插入图片描述
为了高效实现相似示例的感知，所有的多模态融合特征可以提前计算并存储。

三、数据集介绍

我们在两个公共 MNER 数据集上进行了实验：Twitter-2015和 Twitter-2017。这两个数据集都是从Twitter平台上收集的，包含了文本和图像的配对信息，主要用于研究在社交媒体短文本场景下的多模态命名实体识别和情感分析等任务。、

Twitter-2015：推文中的文本部分被手动标注了命名实体，并使用BIO2（Beginning- Inside-Outside）标注方案对命名实体进行分类。实体类别包括人物（Person）、组织（Organization）、地点（Location）等。3373/723/723(train/development/test)

三、性能展示

在这里插入图片描述

本文所有资源均可在该地址处获取。

实现过程

在下载附件并准备好数据集并调试代码后，进行下面的步骤，附件已经调通并修改，可直接正常运行；
环境要求

python == 3.7
torch == 1.13.1
transformers == 4.30.2
modelscope == 1.7.1

我们的项目基于AdaSeq, AdaSeq项目基于Python版本>= 3.7和PyTorch版本>= 1.8。
下载

git clone https://github.com/modelscope/adaseq.git
cd adaseq
pip install -r requirements.txt -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html

训练模型

python -m scripts.train -c examples/ER/twitter-15.yamlpython -m scripts.train -c examples/ER/twitter-17.yaml

运行过程

训练过程

在这里插入图片描述

查看全文

http://www.mrgr.cn/news/68387.html

丹摩征文活动｜详解 DAMODEL（丹摩智算）平台：为 AI 开发者量身打造的智算云服务

PyQt5实战——翻译的实现，成功爬取微软翻译（可长期使用）经验总结（九）

丹摩征文活动｜FLUX.1图像生成模型：AI工程师的创新实践

157页全面介绍票据业务

yocto下编译perf失败的解决方法

wireshark工具使用

AIDOVECL数据集：包含超过15000张AI生成的车辆图像数据集，目的解决旨在解决眼水平分类和定位问题。

科研——统计 Markdown 字符数量的插件

贝塞尔曲线的超集即对应的数学模型

API返回值：代码界的“快递包裹”说明

旅游社交小程序ssm+论文源码调试讲解

【人工智能】ChatGPT多模型感知态识别

目录

ChatGPT辅助细化知识增强！

一、研究背景

二、模型结构和代码

任务流程

一：启发式生成

三、数据集介绍

三、性能展示

实现过程

运行过程

训练过程

相关文章：