当前位置：首页 > news >正文

大模型多模态应用深化，AI Agent 如何为应用普及提速（科普一键收藏版）

news 2024/10/27 3:11:43

大模型多模态应用深化，AI Agent 如何为应用普及提速（科普一键收藏版）❥(^_-)

随着AIGC行业发展，大模型多模态发展近一步深化发展，尤其文生视频，文生图，文生音频等能力的技术突破，大大降低了创业门槛以及打开商业空间，C端，B端，应用端等应用AI
Agent构建能力快速下沉，推动了AI应用的快速爆发，也推动了各行业模型的快速迭代。

- AI Agent 或将帮助 AI 应用进一步智能化
- 基于 LLM 驱动的 Agent 基本框架
- AI Agent 四大模块
- 人类与 AI 协同的三种模式
- AI Agent 历史与现阶段对比
- AI Agent 使软件行业从面向过程框架转向面向目标框架
- AI Agent 或将实现多场景下智能程度大幅提升

AI Agent 或将帮助 AI 应用进一步智能化

根据《计算机科学技术名词（第三版）》，Agent 是在一定的环境中体现出自治性、反应性、社会性、预动性、思辨性（慎思性）、认知性等一种或多种智能特
征的软件或硬件实体。在人工智能领域，agent 是一个计算实体，AI Agent 视为
能够使用传感器感知周围环境、做出决策并使用执行器做出响应的人工实体。

基于 LLM 驱动的 Agent 基本框架

在这里插入图片描述

AI Agent 四大模块

模块	功能	优势
记忆（Memory)	记忆模块负责存储信息，包括过去的交互、学习到的知识，甚至是临时的任务信息。对于一个智能体来说，有效的记忆机制能够保障它在面对新的或复杂的情况时，调用以往的经验和知识。	a. 短期记忆，所有的上下文学习都是利用短期记忆来学习； b. 长期记忆，这为智能体提供了长时间保留和回忆（无限）信息的能力，通常是通过利用，比如某个行业领域沉淀的大量数据和知识。有了长期记忆，很多数据可以被积累下来，使得智能体的可用性更加强大，更具行业深度、个性化、能力专业化等优势
规划（Planning）	规划模块具有事前规划和事后反思两个阶段。	a. 事前规划阶段，这里涉及对未来行动的预测和决策制定，如执行复杂任务时，智能体将大目标分解为更小的、可管理的子目标，从而能够高效地规划一系列步骤或行动，以达到预期结果。 b. 事后反思阶段，智能体具有检查和改进制定计划中不足之处的能力，反思错误不足并吸取经验教训进行完善，形成和加入长期记忆，帮助智能体之后规避错误、更新其对世界的认知
工具使用（Tooluse）	工具使用模块指的是智能体能够利用外部资源或工具来执行任务。	学习调用外部 API 来获取模型权重中缺失的额外信息，包括当前信息、代码执行能力、对专有信息源的访问等，以此来补足 LLM 自身弱项。例如 LLM 的训练数据不是实时更新的，这时可以使用工具访问互联网来获取最新信息，或者使用特定软件来分析大量数据。现在市场上已经存在大量数字化、智能化的工具，智能体使用工具比人类更为顺手和高效，通过调用不同的 API 或工具，完成复杂任务和输出高质量结果。
行动（Action）	行动模块是智能体实际执行决定或响应的部分。	面对不同的任务，智能体系统有一个完整的行动策略集，在决策时可以选择需要执行的行动，比如广为熟知的记忆检索、推理、学习、编程等。

AI Agent 较目前广泛使用的 Copilot 模式更加独立。 对比 AI 与人类的交互模式，目前已从过去的嵌入式工具型 AI（例如 Siri）向助理型 AI 发展，目前的各类 AI Copilot 不再是机械地完成人类指令，而是可以参与人类工作流，为诸如编写代码、策划活动、优化流程等事项提供建议，与人类协同完成。而 AI Agent 相较助理型 AI 又更加独立，将能够自主调用资源完成任务，人类在其中更多起到监督和评估的作用。

人类与 AI 协同的三种模式

在这里插入图片描述
大模型为 AI Agent 提供强大核心大脑。。目前随着模型规模增大，大模型展现出上下文学习、推理和思考链等多种类似于人类思考方式的能力。将大模型作为AI Agent 的核心大脑，使解决复杂问题、实现自然语言交互等任务成为可能。Agent+大模型将有望构建具备自主思考、决策和执行能力的智能体，提升大模型的应用能力。

AI Agent 历史与现阶段对比

历史发展	现阶段
20 世纪中叶，主要集中在增强代理的特定能力，如符号推理或对特定任务的掌握（国际象棋、围棋等）。这些研究更加注重算法设计和训练策略，而忽视了模型固有的通用能力的发展，如知识记忆、长期规划、有效泛化和高效互动等。事实证明，增强模型固有能力是推动智能代理进一步发展的关键因素。	大型语言模型（LLMs）将 AI Agent 带向 NLP 到 AGI 的发展路线中的第二级——互联网（语料库、互联网、感知、具身和社会属性代理社会）。在这个基础上，如果赋予 LLM-based Agents 感知空间和行动空间，它们将达到第三、第四级。进一步地，多个代理通过互动、合作解决更复杂的任务，或者反映出现实世界的社会行为，则有潜力来到第五级 —— 代理社会。

历史发展

现阶段

20 世纪中叶，主要集中在增强代理的特定能力，如符号推理或对特定任务的掌握（国际象棋、围棋等）。这些研究更加注重算法设计和训练策略，而忽视了模型固有的通用能力的发展，如知识记忆、长期规划、有效泛化和高效互动等。事实证明，增强模型固有能力是推动智能代理进一步发展的关键因素。

大型语言模型（LLMs）将 AI Agent 带向 NLP 到 AGI 的发展路线中的第二级——互联网（语料库、互联网、感知、具身和社会属性代理社会）。在这个基础上，如果赋予 LLM-based Agents 感知空间和行动空间，它们将达到第三、第四级。进一步地，多个代理通过互动、合作解决更复杂的任务，或者反映出现实世界的社会行为，则有潜力来到第五级 —— 代理社会。

资料来源：《The Rise and Potential of Large Language Model Based Agents: A Survey》

在大模型时代，AI Agent 或将拓宽 AI 应用可解决的问题范围，升维软件能力。 AI Agent 或将使软件应用的范式从面向过程迁移到面向目标。传统软件采用预定义的指令、逻辑和规则来固定流程，而面向目标的架构更专注于特定领域，通过目标导向的 agent 自主生成，从而拓宽软件应用可解决的问题范围。大模型赋能agent 后，AI agent 智能程度进一步提升，或将升维软件能力。

AI Agent 使软件行业从面向过程框架转向面向目标框架

在这里插入图片描述

AI Agent 相较于简单的 AI 工具具有更广泛的应用范围、更灵活的交互方式、记忆和学习能力，以及更强的代理性质，使其能够更全面地满足用户需求并适应不断变化的环境。
（1）应用范围方面， AI 工具大多数是机器人，仅限于特定应用程序，在特定任务或领域中执行功能；而 AI Agent 具有更广泛的应用范围，可以处理多个任务，并在不同领域中执行各种功能，具有更强的代理性质，能够代表用户执行任务，做出决策。
（2）交互方式方面， AI 工具通常在写下特定单词或请求帮助时介入，具有有限的交互方式；而 AI Agent 具有更自然和灵活的交互方式，能够理解复杂的自然语言指令，并与用户进行更智能的对话。

AI Agent 或将实现多场景下智能程度大幅提升

应用场景	现阶段 AI 场景	AI Agent 作用	AI Agent 具体场景
医疗保健	完成行政任务，例如在就诊期间录音，帮助医生审查病历等	主动分析相关信息；帮助患者进行基本的疾病分类并提供处理健康问题的建议；帮助医护人员做出决定并提高工作效率	临床诊断；心理健康护理；康复指导等
教育	辅导学生学习，例如解释二次函数公式并创建数学问题进行练习；帮助教师制定课程计划等	主分析导师有效因素；通过更丰富形式教学；因材施教，为不同学生创建不同教学计划	如果一个辅导 Agent 知道一个学生喜欢 Minecraft和 Taylor Swift，它会用 Minecraft 来教该学生计算形状的体积和面积，用 Taylor 的歌词讲述故事和押韵格式
生产力	AI+办公自动化，如把书面文档转化为幻灯片，用自然语言回答有关电子表格的问题等	形成个人办公助理：撰写分析类文字，提供智能化咨询，实现代理与代理之间之间沟通等	帮助用户写商业计划、为其创建演示文稿，生成产品外观的图像；代理成为每个会议的一部分，为用户回答问题；帮助用户组织日常活动
娱乐与购物	根据用户过去喜欢的内容提出建议，帮助用户挑选新电视、推荐电影、书籍、节目和播客	除挑选推荐外，Agent 帮助用户完成开箱即用前的每一步；定制用户专属的新闻和娱乐等	购物场景： Agent 会阅读所有商品评论、生成总结、给出建议，在用户决定后帮助下单。推荐场景：如果用户不知道需求，Agent 会给出定制建议，然后完成用户选择的电影或节目的播放。