大模型多模态应用深化,AI Agent 如何为应用普及提速(科普一键收藏版)
大模型多模态应用深化,AI Agent 如何为应用普及提速(科普一键收藏版)❥(^_-)
随着AIGC行业发展,大模型多模态发展近一步深化发展,尤其文生视频,文生图,文生音频等能力的技术突破,大大降低了创业门槛以及打开商业空间,C端,B端,应用端等应用AI
Agent构建能力快速下沉,推动了AI应用的快速爆发,也推动了各行业模型的快速迭代。
目录
- AI Agent 或将帮助 AI 应用进一步智能化
- 基于 LLM 驱动的 Agent 基本框架
- AI Agent 四大模块
- 人类与 AI 协同的三种模式
- AI Agent 历史与现阶段对比
- AI Agent 使软件行业从面向过程框架转向面向目标框架
- AI Agent 或将实现多场景下智能程度大幅提升
AI Agent 或将帮助 AI 应用进一步智能化
根据《计算机科学技术名词(第三版)》,Agent 是在一定的环境中体现出自治性、反应性、社会性、预动性、思辨性(慎思性)、认知性等一种或多种智能特
征的软件或硬件实体。在人工智能领域,agent 是一个计算实体,AI Agent 视为
能够使用传感器感知周围环境、做出决策并使用执行器做出响应的人工实体。
基于 LLM 驱动的 Agent 基本框架
AI Agent 四大模块
模块 | 功能 | 优势 |
---|---|---|
记忆(Memory) | 记忆模块负责存储信息,包括过去的交互、学习到的知识,甚至是临时的任务信息。对于一个智能体来说,有效的记忆机制能够保障它在面对新的或复杂的情况时,调用以往的经验和知识。 | a. 短期记忆,所有的上下文学习都是利用短期记忆来学习; b. 长期记忆,这为智能体提供了长时间保留和回忆(无限)信息的能力,通常是通过利用,比如某个行业领域沉淀的大量数据和知识。有了长期记忆,很多数据可以被积累下来,使得智能体的可用性更加强大,更具行业深度、个性化、能力专业化等优势 |
规划(Planning) | 规划模块具有事前规划和事后反思两个阶段。 | a. 事前规划阶段,这里涉及对未来行动的预测和决策制定,如执行复杂任务时,智能体将大目标分解为更小的、可管理的子目标,从而能够高效地规划一系列步骤或行动,以达到预期结果。 b. 事后反思阶段,智能体具有检查和改进制定计划中不足之处的能力,反思错误不足并吸取经验教训进行完善,形成和加入长期记忆,帮助智能体之后规避错误、更新其对世界的认知 |
工具使用(Tooluse) | 工具使用模块指的是智能体能够利用外部资源或工具来执行任务。 | 学习调用外部 API 来获取模型权重中缺失的额外信息,包括当前信息、代码执行能力、对专有信息源的访问等,以此来补足 LLM 自身弱项。 例如 LLM 的训练数据不是实时更新的,这时可以使用工具访问互联网来获取最新信息,或者使用特定软件来分析大量数据。现在市场上已经存在大量数字化、智能化的工具,智能体使用工具比人类更为顺手和高效,通过调用不同的 API 或工具,完成复杂任务和输出高质量结果。 |
行动(Action) | 行动模块是智能体实际执行决定或响应的部分。 | 面对不同的任务,智能体系统有一个完整的行动策略集,在决策时可以选择需要执行的行动,比如广为熟知的记忆检索、推理、学习、编程等。 |
AI Agent 较目前广泛使用的 Copilot 模式更加独立。 对比 AI 与人类的交互模式,目前已从过去的嵌入式工具型 AI(例如 Siri)向助理型 AI 发展,目前的各类 AI Copilot 不再是机械地完成人类指令,而是可以参与人类工作流,为诸如编写代码、策划活动、优化流程等事项提供建议,与人类协同完成。而 AI Agent 相较助理型 AI 又更加独立,将能够自主调用资源完成任务,人类在其中更多起到监督和评估的作用。
人类与 AI 协同的三种模式
大模型为 AI Agent 提供强大核心大脑。。目前随着模型规模增大,大模型展现出上下文学习、推理和思考链等多种类似于人类思考方式的能力。将大模型作为AI Agent 的核心大脑,使解决复杂问题、实现自然语言交互等任务成为可能。Agent+大模型将有望构建具备自主思考、决策和执行能力的智能体,提升大模型的应用能力。
AI Agent 历史与现阶段对比
历史发展 | 现阶段 |
---|---|
20 世纪中叶,主要集中在增强代理的特定能力,如符号推理或对特定任务的掌握(国际象棋、围棋等)。这些研究更加注重算法设计和训练策略,而忽视了模型固有的通用能力的发展,如知识记忆、长期规划、有效泛化和高效互动等。事实证明,增强模型固有能力是推动智能代理进一步发展的关键因素。 | 大型语言模型(LLMs)将 AI Agent 带向 NLP 到 AGI 的发展路线中的第二级——互联网(语料库、互联网、感知、具身和社会属性代理社会)。在这个基础上,如果赋予 LLM-based Agents 感知空间和行动空间,它们将达到第三、第四级。进一步地,多个代理通过互动、合作解决更复杂的任务,或者反映出现实世界的社会行为,则有潜力来到第五级 —— 代理社会。 |
资料来源:《The Rise and Potential of Large Language Model Based Agents: A Survey》
在大模型时代,AI Agent 或将拓宽 AI 应用可解决的问题范围,升维软件能力。 AI Agent 或将使软件应用的范式从面向过程迁移到面向目标。传统软件采用预定义的指令、逻辑和规则来固定流程,而面向目标的架构更专注于特定领域,通过目标导向的 agent 自主生成,从而拓宽软件应用可解决的问题范围。大模型赋能agent 后,AI agent 智能程度进一步提升,或将升维软件能力。
AI Agent 使软件行业从面向过程框架转向面向目标框架
AI Agent 相较于简单的 AI 工具具有更广泛的应用范围、更灵活的交互方式、记忆和学习能力,以及更强的代理性质,使其能够更全面地满足用户需求并适应不断变化的环境。
(1)应用范围方面, AI 工具大多数是机器人,仅限于特定应用程序,在特定任务或领域中执行功能;而 AI Agent 具有更广泛的应用范围,可以处理多个任务,并在不同领域中执行各种功能,具有更强的代理性质,能够代表用户执行任务,做出决策。
(2)交互方式方面, AI 工具通常在写下特定单词或请求帮助时介入,具有有限的交互方式;而 AI Agent 具有更自然和灵活的交互方式,能够理解复杂的自然语言指令,并与用户进行更智能的对话。
AI Agent 或将实现多场景下智能程度大幅提升
应用场景 | 现阶段 AI 场景 | AI Agent 作用 | AI Agent 具体场景 |
---|---|---|---|
医疗保健 | 完成行政任务,例如在就诊期间录音,帮助医生审查病历等 | 主动分析相关信息;帮助患者进行基本的疾病分类并提供处理健康问题的建议;帮助医护人员做出决定并提高工作效率 | 临床诊断;心理健康护理;康复指导等 |
教育 | 辅导学生学习,例如解释二次函数公式并创建数学问题进行练习;帮助教师制定课程计划等 | 主分析导师有效因素;通过更丰富形式教学;因材施教,为不同学生创建不同教学计划 | 如果一个辅导 Agent 知道一个学生喜欢 Minecraft和 Taylor Swift,它会用 Minecraft 来教该学生计算形状的体积和面积,用 Taylor 的歌词讲述故事和押韵格式 |
生产力 | AI+办公自动化,如把书面文档转化为幻灯片,用自然语言回答有关电子表格的问题等 | 形成个人办公助理:撰写分析类文字,提供智能化咨询,实现代理与代理之间之间沟通等 | 帮助用户写商业计划、为其创建演示文稿,生成产品外观的图像;代理成为每个会议的一部分,为用户回答问题;帮助用户组织日常活动 |
娱乐与购物 | 根据用户过去喜欢的内容提出建议,帮助用户挑选新电视、推荐电影、书籍、节目和播客 | 除挑选推荐外,Agent 帮助用户完成开箱即用前的每一步;定制用户专属的新闻和娱乐等 | 购物场景: Agent 会阅读所有商品评论、生成总结、给出建议,在用户决定后帮助下单。 推荐场景: 如果用户不知道需求,Agent 会给出定制建议,然后完成用户选择的电影或节目的播放。 |