当前位置：首页 > news >正文

【AI大模型】北京银行如何构建全栈大模型应用体系？

news 2025/4/27 16:57:05

近年来，以 ChatGPT 为代表的大模型技术迅速发展，为人工智能产业带来了新的变革，全球 AI 竞争日益激烈，通用智能成为竞争的焦点。国家层面鼓励构建人工智能增长引擎，去年两会工作报告中提出了“人工智能 +”的理念，强调深化大数据和人工智能研发应用，开展人工智能 + 行动，以打造具有国际竞争力的数字产业集群。监管机构如人行、监管总局等也提出了针对人工智能大模型的规范要求和指南。金融行业凭借其丰富的大规模数据积累和多元化应用场景，成为大模型应用的理想领域。

然而，金融大模型在行业应用中面临三大挑战：高端芯片受限、数据问题以及大模型应用风险。例如，美国政府限制 AI 芯片出口，ChatGPT 主要使用英文数据，而中文数据不足 1%，同时金融行业数据来源也较为单一。此外，大模型存在幻觉问题，模型输出的准确性问题限制了其在金融领域的应用，目前主要应用于边缘场景。

为应对这些挑战，北京银行近年来一直致力于探索人工智能在商业银行的应用，打造人工智能驱动的商业银行（AIB）。去年，北京银行提出了 B=IB+AIB 的理念，即 投行驱动与人工智能驱动相结合的商业银行，强调加快企业级数字化转型，用 AI 构建面向未来的金融核心能力，提升经营质效和客户体验。

自 2020 年起，北京银行开始构建人工智能中台应用——京智大脑，重点发展以知识驱动的大模型应用体系，通过大模型与小模型的双轮驱动，提高运营效率，精准拓客营销，支持产品创新，优化客户服务，加强风险管理，积极赋能业务发展。

在日前举办的 FCon 全球金融科技大会上，北京银行软件开发中心副总经理代铁分享了北京银行在人工智能领域的应用平台建设与实践。

以下是演讲实录（经 InfoQ 进行不改变原意的编辑整理）：

在本次演讲中，我将分享北京银行在人工智能应用平台的技术架构、技术特点以及行业应用情况。

构建“4+N”的全栈

国产化大模型应用体系

总体功能架构

我们之前提到了京智大脑这一技术平台，它最初主要是基于数据驱动的小模型。近两年，我们重点聚焦于大模型的研发与应用，并成功构建了一个 “4+N”的全栈国产化大模型应用体系。

这个体系中的“4”代表了四个核心组成部分：

1. 国产化的算力底座，集成了 CPU、GPU、NPU 等算力资源，为人工智能应用提供了强大的计算支持。

2. 企业级知识库，它包含了行内的操作手册、规章制度以及金融行业的基础知识，通过我们的构建，形成了一个全面的、立体的金融知识图谱，为企业提供了丰富的知识资源。

3.MaaS 平台，在通用大模型的基础上建立了模型训练和推理的平台，负责整个大模型的训练、推理和构建工作。

4. 基于 Agent 的应用平台，我们在上面构建了查询和内容生成等方面的 Agent 能力，以支持多样化的业务需求。

“N”则代表了多个银行业应用场景的示范应用，通过这些应用，我们打造了一个“4+N”的应用体系，推动人工智能技术在银行业务中的深入应用和创新。

应用架构

从应用架构的角度来看，北京银行构建了一个覆盖前中后台的大模型应用体系，这个体系以私有化、通用化、行业化、专业化和普惠化 为引领。整个架构从下到上分为五层：

1. 基础大模型： 这是架构的最底层，我们采用了开源兼容的方式，集成了大约十个目前市场上可用的开源大模型，以此为基础打造了我们自己的基础大模型平台。

2. 行业大模型： 在这一层，我们在基础大模型的基础上，结合行内金融数据进行精细调整，形成了多个参数规格的行业金融大模型，包括 6B、7B、13B 以及 130B 等不同规模的模型，以满足不同的应用场景需求。

3. 企业级知识库： 在这一层，我们结合总行、分行、支行各级的营销策略、产品信息、操作流程以及外部监管和内部风控审计的相关资料，进行了训练和向量化存储，构建了我们行自己的企业级大模型。

4. 场景赋能层： 基于企业大模型，我们建立了各种应用平台，围绕投资顾问、运营管理、行业研究、财务报告等十多个业务场景，提供了人工智能助手，以支持业务的高效运作。

5. 个人应用层： 最顶层是针对个人员工的应用，北京银行非常重 为一线员工赋能。我们以个人办公场景为抓手，为一线员工提供了包括写作助手、营销助手、客户助手等一系列 AI 工具，这些工具易于使用、高效且实用，旨在提高一线员工的工作效率，并提升全行的服务专业化水平。

技术架构

在技术架构方面，北京银行的人工智能平台从下到上分为五个主要层次：算力层、数据层、框架层、模型层和应用层。

1. 算力层： 这一层由 GPU、NPU、CPU 等组成，为大模型的训练和推理提供必要的计算支持。

2. 数据层： 数据层涵盖了三个方面的数据资源。首先是行内数据，包括规章制度、操作指引、监管政策和培训资料等；其次是通过外部途径获取的企业信息，如工商、司法、税务、招投标等；最后是互联网上收集的金融资讯、百科知识和行业数据。这些数据共同构成了我们的数据和知识库。

3. 框架层： 在这一层，我们依托金智大脑进行大模型的训练和推理，包括 数据清洗、提示词工程应用和搜索引擎增强 等。模型的训练、管理和发布都在这一层进行控制。

4. 模型层： 我们内嵌了大约 10 多个基础大模型，这些模型可以根据需要进行增补。基于这些基础大模型，我们结合行内和金融业的数据，形成了不同参数规模的行业金融模型。这些模型针对不同的业务场景，如知识抽取、实体识别、意图识别、知识问答和查询等。

5. 应用层： 针对不同的业务场景，我们设立了相应的应用，以支持银行各种业务层面的需求。整个平台构建了一种多模型适配、多任务插件以及多元知识互补的交付能力和应用体系，为业务赋能。

人工智能应用平台七大技术特点

第一，我们建设了全栈国产化的算力基座和训练框架，以提升自主可控能力。响应国家的号召，我们致力于增强自主研发和信息技术应用创新的能力。面对芯片供应的挑战，我们基于华为的 910B 芯片打造了国产化的算力，并通过 AI、物联网和边缘计算技术构建了智算网络。这个网络允许总行集中训练模型，分行进行推理、边端应用，实现了在算力资源紧张的情况下，对全行算力资源的统一调度，提高了资源利用效率，更好地服务于经营单位和业务流程。

第二，我们构建了可信的金融训练集，结合行内的规章制度、营销策略、监管要求以及行业数据，进行了相关的训练。通过与自动化研究所合作，我们提出了两项关键技术：一是多维度金融数据集的智能过滤技术，利用启发式规则、困惑度评分等方法，从数据采集、分析、清洗到去重过滤，形成高质量的金融数据集；

二是高可信混合式金融指令数据生成技术，通过种子指令扩展、背景数据混合等技术，针对金融领域数据更新快、内容忠实性要求高、风险厌恶的特点，提高了指令数据的抗干扰能力。目前，我们已经形成了约 500 亿 token 规模的数据集，包含了 300 万条指令集。

第三，我们构建了金融领域的混合专家模型。银行业的应用场景众多且复杂，我们的模型规格、参数和版本也相当多样。如果将应用场景与模型强绑定，将导致训练更新成本高昂，应用效果不佳。因此，我们建立了一个混合专家模型矩阵，通过自动路由和任务规划技术，确保最适合的模型解决具体的银行应用场景。这种方法不仅节约了推理资源，让最合适的模型处理相应的问题，还提高了模型的准确性。整个模型架构灵活且可扩展，可以进行拆卸和组合，基于这种混合专家模型实现分布式计算，使模型的分工更加专业化。

在这里插入图片描述

第四，我们建设了大模型服务平台，旨在降低大模型的训练和推理成本。我们内置集成了十多个基础大模型，能够快速进行二次性能增强。同时，我们打造了基于训练和推理的全面工具链，包括模型的基础配置、数据管理、模型训练、模型管理和模型部署等全栈式工具链，使我们能够迅速针对业务场景进行模型训练和推理，并快速部署，节约了训练和推理成本。我们也考虑了安全性，内置了安全算子和高危词过滤，确保模型的输出在数据安全和结果安全方面都经过了严格的考量和安排。

第五，我们建设了 Agent 智能体应用能力，以实现大模型应用能力的快速对接。Agent 是一种智能实体，它能够感知外界环境、进行推理，并执行动作。其核心功能依赖于大模型的驱动，除此之外，Agent 还具备规划、知识存储和工具调用的能力，使其能够快速感知外界环境变化并作出反应。Agent 可以根据设定的目标进行独立思考，调用并组合工具，以提升人机交互体验。这有助于更好地发挥银行业务流程的价值。

我们的 Agent 平台提供了流程编排、插件开发和部署等功能，支持知识问答、知识检索、数据分析、任务执行等多种业务场景的调用。这使得大模型能够方便地与银行业务系统进行对接，尤其是在信贷和风控等核心业务领域，Agent 技术的应用使得大模型的智能应用成为可能，我们也在不断探索其在这些领域的应用。

第六，自研搜索引擎的建设，旨在构建多元化的金融知识库，以提升大模型的安全性。我们已经建立了一个全面立体的金融知识图谱，这为大模型的决策和内容生成提供了坚实的数据基础。同时，我们自研了基于正向和逆向索引的搜索引擎，使我们能够迅速定位大模型所需的金融知识点，确保获取的知识既最新又权威，从而提高模型的准确性。通过构建这种多元化的金融知识库，我们能够满足银行业的监管要求，特别是对人工智能技术应用的可解释性和准确性的明确要求。大模型通常被视为“黑盒子”，而结合多元化金融知识库的技术，我们能够将“黑盒子”打开，将闭卷考试转变为开卷考试，既满足了监管要求，也使得大模型的应用更加安全可信。

第七，建设数据安全标注环境，以满足大模型数据标注的安全需求。近年来，数据安全保护的要求日益严格。为此，我们在数据中心建设了自己的安全屋，通过一系列物理措施，包括监控和门禁设备，确保数据标注的安全性和可控性。这不仅防止了数据外泄，还支持了大模型的持续研发和升级。

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望