当前位置：首页 > news >正文

《Agent 工作流 2025》

news 2025/4/26 18:05:51

Agent简介

智能体，简而言之，就是能够在特定环境中执行任务的实体。它可以是物理的，如机器人，也可以是虚拟的，如软件程序。智能体的核心在于其自主性，它们能够感知环境、做出决策，并根据这些决策执行行动。

Agent具体组成

一个完整的智能体通常由以下几个部分组成：

\1. 感知系统：负责收集环境信息。

\2. 推理系统：处理感知到的信息，并做出决策。

\3. 行动系统：执行推理系统做出的决策。

\4. 学习系统：从经验中学习，以改进未来的决策。

这些组成部分共同工作，使智能体能够在复杂的环境中有效运作。

Agent智能体的规划与提示词的关系

在智能体的设计中，规划是核心环节。规划涉及到确定如何从当前状态达到目标状态的一系列步骤。提示词在这个过程中扮演着至关重要的角色，它们是智能体用来引导用户输入和系统响应的关键信息。通过精心设计的提示词，智能体能够更准确地理解用户的需求，并提供更有效的响应。

一、智能体（Agent）和工作流（Workflow）

今天我们探讨这一个话题，学习大模型的时候，可能会经常听到“智能体”和“工作流”两个概念，他们之间有什么样的区别呢？

智能体的概念，这张图片很能解释清楚：

Planning：大模型在遇到一些复杂问题的时候，可能无法在一次交互中直接给出最终答案，那就可以将一个大的复杂任务拆解成多个更小的简单一些的任务，从而更有效的处理复杂任务。同时，agent可以对过去的行为进行自我批评和自我反思，从错误中吸取教训，并为未来的步骤进行改进，从而提高最终结果的质量。
Memory：大模型本身的记忆能力有限，可以理解为短期记忆。在agent中，我们可以将大模型的短期记忆存储在外部，需要使用的时候进行检索和调用，变相可以实现长期记忆。

Tools：大模型由于其原理，会有一些限制，例如其本身不包含最新的数据，不能回答关于最新信息的问题。
这个时候，我们就可以为其添加一个搜索工具，让大模型回答前，调用搜索能力后把搜索到的信息传递给大模型，这样大模型就可以基于最新的信息回答问题了。
Action：在基于上述步骤后，大模型就可以进行拆分后的任务处理以及生成最终答案了。
从上面的原理说明中，我们可以看到，Agent在处理复杂任务的时候，有其独特优势。大模型可以自动拆解规划复杂任务，并且能够根据不同的任务灵活规划。但是他也有自己的缺点，一旦大模型规划得不好，整个任务最终处理效果就不佳，缺乏稳定性。
我们可以这样理解，Agent是大模型动态拆解任务，而工作流就是人为拆解复杂任务，交由大模型去执行。
下图是比较热门的comfyUI生图工作流，这就是一个典型的工作流。
为了控制最终出图质量的稳定性，我们不能完全交由大模型去做任务的拆解与规划，所以我们需要根据经验，实现把工作步骤拆分清楚，让大模型严格按照我们定义好的步骤执行，这样就能控制最终结果的稳定性。

接下来我们总结一下：
首先，无论是Agent还是工作流，都是为了解决复杂任务，但是各有特点：

Agent会根据不同的任务动态规划，所以他会更灵活。
比如：

有10个不同的任务，如果你要人为拆解规划10个工作流就比较费劲，但是使用agent就不用人为规划，全部交给大模型就可以。缺点就是缺乏稳定性

比如：
10个回答中，可能只有6个符合你的预期。
工作流需要人为提前拆解步骤，大模型直接根据定义好的步骤执行，结果稳定，但缺乏灵活性。这比较依赖于定义的工作流的好坏，即比较依赖专家的知识。因为大模型只是执行者，结果好坏全看工作流是否定义的合理。
因此，我们可以根据不同的任务选择不同的处理方式：
如果是没有明确想好步骤，或者对于稳定性要求没有那么高的任务，可直接交由agent处理，比如总结过去一天的新闻摘要。
如果是对于结果有稳定性要求，比如需要根据事先定义好的格式与步骤进行输出，这种就比较适合工作流的方式进行处理。

二、了解了智能体与工作流，构建垂直专家Agent智能体：

针对想在垂直领域构建自己的垂类agent组织，可以有以下路径：

\1. 第一步应该引入 RAG ，创建或者优化现有数据输出方式，不管是搜索、知识图谱、还是 CMS、内部文档，先上去，用起来再说。

\2. 第二步把 RAG 使用过程中产生的数据和原有数据结合、清洗，找一个开源的大模型做底座进行微调产生自己的行业 LLM，牛该吹吹、活该干干、paper 该发发，有里有面。

\3. 基于自己的垂直方向 XXX-GPT，提炼业务流程，采用自己写+开放社区共创的方式统一自己垂直领域里面的 SOP，创建自己的业务大脑给到社区和业内。针对原有的组织内部的 API 进行整理，思考哪些 API 是要精简、放到语料中进行 FT，经过几轮调试后最终得到的关于业务 API 的 Prompt 是真正可以称得上业务精华的，精华。把这些东西放到 GPU 里面训，出一个可以跑 function call 的模型，这么做有两个好处，一个是由于 API 信息入了LLM，意味着平时调用的 Prompt 可以少写点字，提高了执行效率；第二得到一个「真懂业务」的 model，还是那句话，懂 API 的 model 才是好的垂类专家 model

做 Agent！还有三个判断：

\1. 「其实没有什么「垂类行业专家大模型」，只有垂类行业专家 Agent

\2. Function Call / Assistant API 这种，Ilya 同志预测只能是 100B+ （起码是几十 B+）上才可以做的事情，很快会落到各种 7B 模型上，甚至 1B 左右的模型上，这个事情做过硬件的同学肯定很好理解，产品第一版没别的就是堆料，后面真正上量的、决定成败的是 cost-down 的版本，所以 cost-down + agent 的 LLM，是接下来特别值得期待的。

\3. 未来每个地区都会是「1+N」的结构，每个地区都是一个通用大模型带着 N 个「垂直行业专家 Agent」，北美、北京、巴黎、伦敦、德国（不知道哪个角落里藏着）…

三、智能体构建思路

AI Agent 通过prompt编排整合了LLM和外部函数

举个简单的例子：

当我们问苏州市今天的天气怎么样，我们来看看Agent是如何能够回答我们的问题的。

1.输入问题：首先，我们向 LLM 输入问题。

2.使用 ReAct 提示进行处理：LLM 通过ReAct 提示驱动，让模型思考问题并考虑如何回答。我们称之为 “思考（Thought）”，在后文详述。

3.外部函数执行：LLM 选择并执行一个外部函数，本例中为 “get_weather(city)”。

4.生成响应：获取到实时数据后，llm会根据结果生成最终响应。

这种思考、决策和行动的整合反映了人类解决问题的过程，展示了人工智能如何绕过传统限制。

展望：

Agent 全面降临时，我们现在可能联想和推理出的社会变化和商业模式变革。投资比的是“谁看得远，看得准，敢重仓，能坚持”，但以上预测有可能错漏百出，时代的剧本也或许更加超乎我们的想象。所以在仰望星空的同时，也要脚踏实地，根据客观现实不断调整概率判断。投资更多是在不断调整的预测中，去下注最大概率的机会。

我们从本月 AI 巨头发布的财报，可以看一些预测不断在变成现实：巨头 AI 资本开支不断加码，展望明年也呈不断加速之势；在此投资规模下，各云厂商的 AI 需求增速仍在不断提速，甚至算力产能仍大幅落后于 AI 推理需求；某些AI 助手的订阅需求季度环比超 50% 增长快速上量，传统软硬件全面 AI 化，部分产品使用人数上十亿；新业务的大幅资本开支增长，并没有影响企业的分红回购金额，也并没有严重压低利润率，有的云厂商的利润率甚至出现大幅上涨的情况。

那么2025 年以后的Agent世界，会以什么样的形式展开，是否会像十年前获奖无数的电影《触摸不到的她》一样，成为我们生活中难以割舍的一部分呢，让我们拭目以待！

如何学习大模型

现在社会上大模型越来越普及了，已经有很多人都想往这里面扎，但是却找不到适合的方法去学习。

作为一名资深码农，初入大模型时也吃了很多亏，踩了无数坑。现在我想把我的经验和知识分享给你们，帮助你们学习AI大模型，能够解决你们学习中的困难。

下面这些都是我当初辛苦整理和花钱购买的资料，现在我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习，等录播视频免费分享出来，需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势，它不仅能够为我们提供更多的机会和挑战，还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型，我们可以深入了解深度学习、神经网络等核心概念，并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时，掌握AI大模型还能够为我们的职业发展增添竞争力，成为未来技术领域的领导者。

再者，学习AI大模型也能为我们自己创造更多的价值，提供更多的岗位以及副业创收，让自己的生活更上一层楼。

因此，学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

查看全文

http://www.mrgr.cn/news/69622.html