AI大模型基础概念
什么是人工智能?
人工智能 (AI) 是一种使计算机和机器能够模拟人类智能和解决问题能力的技术。
人工智能 (AI) 可以单独使用或与其他技术(例如,传感器、地理定位、机器人)相结合,执行原本需要人类智能或人工干预的任务。数字助理、GPS 制导、自动驾驶汽车和生成式 AI 工具(如 Open AI 的 Chat GPT)只是日常新闻和我们日常生活中 AI 的几个例子。
作为计算机科学的一个领域,人工智能包括(并经常一起提及)机器学习和深度学习。这些学科涉及以人脑决策过程为模型的 AI 算法的开发,这些算法可以从可用数据中“学习”,并随着时间的推移做出越来越准确的分类或预测。
人工智能已经历多次炒作周期,但即使对怀疑论者来说,ChatGPT 的发布似乎也标志着一个转折点。上一次生成式 AI 能让人如此忧心忡忡的时候,还是因为在计算机视觉方面取得突破,而现在的飞跃则是在自然语言处理 (NLP) 方面。如今,生成式 AI 不仅可以学习和合成语言,还可以学习和合成其他数据类型,包括图像、视频、软件代码甚至分子结构。
AI 的应用每天都在增长。但随着 AI 工具在商业中的使用大肆宣传,围绕 AI 伦理和负责任的 AI 的对话变得至关重要。
深度学习与机器学习的对比
机器学习和深度学习是 AI 的子学科,而深度学习是机器学习的子学科。
机器学习和深度学习算法都使用神经网络来从大量数据中“学习”。这些神经网络是以人脑决策过程为模型的编程结构。它们由相互连接的节点层组成,这些节点从数据中提取特征并预测数据所代表的内容。
机器学习和深度学习在所使用的神经网络类型以及涉及的人为干预程度上有所不同。经典机器学习算法使用具有输入层、一个或两个“隐藏”层和一个输出层的神经网络。通常,这些算法仅限于监督学习:数据需要由人类专家进行结构化或标记,以使算法能够从数据中提取特征。
深度学习算法使用深度神经网络 - 由一个输入层、三个或更多(但通常数百个)隐藏层和一个输出布局组成的网络。这些多层级结构可以实现无监督学习:它们可以自动从大型、未标记和非结构化数据集中提取特征。它不需要人工干预,所以深度学习本质上实现了大规模的机器学习。
人工智能应用
如今,AI 系统有许多实际应用。以下是一些最常见的用例:
语音识别
语音识别也称为自动语音识别 (ASR)、计算机语音识别或 Speech to Text,它使用 NLP 将人类语音处理成书面格式。许多移动设备将语音识别技术集成到其系统中,以进行语音搜索(比如 Siri),或者提供更多关于英语或许多广泛使用的语言中发送短信的可访问性。
客户服务
在线虚拟代理和聊天机器人正在客户旅程中取代人工代理。它们可以回答有关运输等主题的常见问题 (FAQ),或者提供个性化建议、交叉销售产品或为用户建议规格等,从而改变了我们所设想的网站和社交媒体平台中的客户参与方式。示例包括:电子商务网站上带有虚拟代理的消息传递机器人;Slack 和 Facebook Messenger 等消息传递应用平台;以及通常由虚拟助手和语音助手完成的任务。
计算机视觉
这种 AI 技术使计算机和系统将能够从数字图像、视频和其他视觉输入中获取有意义的信息,并根据这些输入采取行动。这种提供建议的能力让它有别于图像识别任务。在卷积神经网络的支持下,计算机视觉可应用于社交媒体中的照片标记、医疗保健中的放射成像以及汽车行业中的自动驾驶汽车。
供应链
自适应机器人根据物联网 (IoT) 设备信息以及结构化和非结构化数据做出自主决策。NLP 工具可以理解人类的语音,并对他们听到的内容做出反应。预测分析应用于需求响应、库存和网络优化、预防性维护和数字化制造。搜索和模式识别算法(不再只是预测性的,而是分层的)分析实时数据,帮助供应链对机器生成的增强智能作出反应,同时提供即时可见性和透明度。
天气预报
广播公司依赖的天气模型由超级计算机上运行的复杂算法组成,用于进行准确预测。机器学习技术增强了这些模型,使其更具适用性和精确性。
异常检测
AI 模型可以梳理大量数据,并在数据集中发现非典型数据点。这些异常现象可以提高人们对设备故障、人为错误或网络安全漏洞的认识。
大模型落地应用案例集
国内公司的 AI 大模型研发虽然比国外公司晚,但是发展却异常地迅速,其内在逻辑便是:本土企业和学者对深度学习技术的深入理解与创新。在大模型的底层技术已经固定的时代,他们靠着持续的探索和努力才能构建出秀丽的“上层建筑”。
在OpenAI发布ChatGPT之前,国内的一些企业就已经押注AI大模型技术:例如2021 年 4 月,华为云联合循环智能发布盘古超大规模预训练语言模型,参数规模达 1 000 亿;2021 年 6 月,北京智源人工智能研究院发布了超大规模智能模型“悟道 2.0”,参数规模达到 1.75 万亿;2021 年 12 月,百度推出 ERNIE 3.0 Titan 模型,参数规模达 2 600 亿,同期,阿里巴巴达摩院的 M6 模型参数达到 10 万亿,将大模型参数直接提升了一个量级。
到2023年,大模型继续火热,国内的AI大模型团队已逐渐拓展到视觉、决策领域,甚至用于解决蛋白质预测、航天等领域的重大科学问题,阿里、京东、oppo等大厂都有相应的成果。
大模型应用拐点已至
图灵奖获得者Yann LeCun说过:AI大模型的技术都是公开的,算不上底层技术上的创新,如果你愿意一探究竟的话,可以发现它背后没有任何秘密可言。
但借着这些“过时”的技术,在中国拥有庞大的人才基数和数据集的情况下,可以发展出更适合本土环境和语境的大模型。
那么如何形象理解大模型?前科技部长王志刚从高维度表示,大模型,就是大数据、大算力、强算法。形象一些:大模型事实上就是算法、数据、算力上的有效结合。传统巨头在大模型领域的技术投入普遍都是在积极防御,而中国企业在非常积极地推动向应用中的落地。
目前,业界除了把AI大模型商业落地模式统分为 toB 和 toC之外,在市场划分上则遵循通用与垂直两大路径,两者在参数级别、应用场景等方面差异正在显性化。
通用大模型往往是指具备处理多种不同类型任务的AI模型,这些模型通常是通过大规模的数据训练而成,能够在多个领域和应用中表现出良好的效能。大家耳熟能详的几个通用大模型均来财力雄厚的企业:
1.书生浦语开源大模型:由上海人工智能实验室研发,涵盖 70 亿参数的轻量级版本 InternLM-7B,以及 200 亿参数的中量级版本和 InternLM-20B,以及完整的开源工具链体系。InternLM-7B 在包含 40 个评测集的全维度评测中展现出卓越且平衡的性能,它在两个被广泛采用的基准 MMLU 和 CEval 上分别取得了 50.8 和 52.8 的高分,开源一度刷新了 7B 量级模型的纪录。
2.昆仑万维天工大模型:“天工”是一个 AI 搜索引擎,一个对话式 AI 助手。“天工”拥有强大的自然语言处理和智能交互能力,能够实现个性化 AI 搜索、智能问答、聊天互动、文本生成、编写代码、语言翻译等多种应用场景并且具有丰富的知识储备,涵盖科学、技术、文化、艺术、历史等领域。
3.通义千问 2.0:由阿里云研发的超大规模的语言模型,具备多轮对话、文案创作、逻辑推理、多模态理解、多语言支持等功能。通义千问 2.0 在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均比上代有显著提升。
4.MiniMax-abab:由科技创业公司MiniMax研发。据悉,“Max-abab”是文本、语音、视觉三模态的千亿参数大语言模型,在中、英文服务领域均已超过GPT-3.5 的水平。今年8月份,“MiniMax-abab”大模型通过了国家首批大模型服务备案,面向社会公众提供服务。
5.言犀基础大模型:由京东科技研发,该模型融合了70%的通用数据和30%的数智供应链原生数据,具有更高的产业属性。
6.百灵语言大模型:由蚂蚁集团基于Transfromer架构研发。该模型基于万亿级Token语料训练而成,支持窗口长度达32K,在主流推理类榜单中排名前列。据悉,蚂蚁百灵大模型已完成备案,基于百灵大模型的多款产品已陆续完成内测,正陆续向公众开放。
通用大模型示例,数据来自:《2023大模型落地应用案例集》
这些通用大模型包含千亿甚至万亿参数,覆盖自然语言处理、图像识别、语音识别等方面的任务,已在知识问答、医疗咨询、娱乐领域、视频生成等数十个行业场景领域,展现出广阔的落地应用潜力。
与通用大模型相比,垂类大模型参数量相对较小。但是因为有一些行业的核心数据和业务系统的生产数据参与,所以在相应行业解决问题更为高效、直接。
从《案例集》来看,在金融、教育、医疗等领域,已经有不少公司发布了相应产品。
垂类大模型示例,数据来自:《2023大模型落地应用案例集》
根据《案例集》入选案例的应用场景,垂类大模型更针对于企业级应用场景的垂直性和专业性要求,而在模型部署层面,更少的模型参数、训练数据意味着更少的成本,因此垂直应用领域有望实现“万模齐发”。
《案例集》公布的名单,也恰恰验证了目前垂类大模型发展的一些趋势:
1. 加注端侧、边缘侧应用。轻量化参数能让手机助手接入AI大模型能力。目前已有案例包括OPPO的小布助手、华为的智能助手小艺等等。
2. 更倾向于“解决方案”式的交付方式。由于垂类大模型接受了大量特定领域的数据和知识,因此可以基于领域知识生成更具深度的解决方案。例如ChatDD 新一代对话式药物研发助手,面向游戏行业的图像内容生成式大模型等等。
3. 大模型开始向多模态领域发展。多模态意味着丰富的数据形式,包含视觉、听觉和时序信息。对于大模型模型来说,这意味着可以从多模态中提取和学习更多维度的信息。类似于《案例集》中的单晶炉自动化工艺识别多模态模型,相信未来将会出现更多。
4. “通用+垂直”模型互相融通的态势。随着AI技术的发展,不同类型的模型之间的界限变得越来越模糊。例如,一些通用模型开始整合垂直领域的知识,而一些垂直模型也开始利用通用模型的技术来增强其功能。例如百川大模型在娱乐领域的应用。
抢滩大模型未来:构建生态
对于AI大模型这种划时代的超级机遇而言,胜负不在于做出一个爆款应用,赚到几亿盈利,而在于,是否抓到了大时代的方向。
换句话说,当下的大模型竞争早已超过了技术的范畴,更多是一种生态层面的比拼,具体表现在有多少应用、有多少插件、有多少开发者以及用户等。谁能够率先围绕大模型构建生态,或者说谁率先融入生态,谁就能成为领先者。
大模型要想像电力一样输送给千行百业和千家万户,必然需要一个体系化的产业生态,构建这个生态需要一系列相互关联的因素,包括技术发展、应用场景、数据管理、伦理与法律问题、以及社会影响等。
在生态建构的路径上,目前企业可分为两派。一派将大模型接入原有的产品线,做升级和优化;另一派试图以大模型产品为中心,建构新一代的“超级应用”。而有些企业试图跳过这两种路径,多方面融入AI大模型生态。从《案例集》公布的大模型服务类案例,我们可以看到有些中国企业做了以下尝试:
服务大模型示例,数据来自:《2023大模型落地应用案例集》
例如蚂蚁集团实现了一个大模型数据高效高质量供给平台,不仅可降低数据获取和使用成本,且保证来源合规,并能够有效提升数据质量、过滤风险数据保障训练安全;优刻得开发的AGI云上模型服务平台,能提供数据标准化整合、安全合规、提供算力等服务;上海道客研发的云原生大模型知识库平台能够帮助解决信息孤岛,以及定制个性化的私人语料库;泡泡玛特的AI 整合平台集成多个知名AI大模型,为用户提供一站式 AI服务……
这些大模型服务工具,在一定程度上能有效地解决“幻觉”、“道德”、“性能”、“数据合规”等当前AI大模型遇到的问题。更重要的是借助这些服务,可以建设规范可控的自主工具链,帮助AI企业探索“大而强”的通用模型,助力公司研发“小而美”的垂直行业模型,从而构建基础大模型和专业小模型交互共生、迭代进化的良好生态。
什么是 AI 基础架构?
随着人工智能(AI)在我们的日常生活中用的越来越多,建立一种能够实现有效和高效工作流程的结构就至关重要。这就是人工智能基础架构(AI 基础架构)的用武之地。
精心设计的基础架构有助于数据科学家和开发人员访问数据、部署机器学习算法以及管理硬件的计算资源。
AI 基础架构结合了人工智能和机器学习(AI/ML)技术,来开发和部署可靠且可扩展的数据解决方案。正是这项技术使机器学习成为可能,让机器能够像人类一样思考。
机器学习是一项训练计算机找到模式、做出预测并从经验中学习且无需明确编程的技术。它可以用于生成式 AI,并通过深度学习实现,深度学习是一种用于分析和解释大量数据的机器学习技术。
AI 基础架构技术堆栈
技术堆栈是一组用于构建和部署软件应用的技术、框架和工具。我们可以想象这些技术是一层一层“堆”在一起,来构建整个应用的。AI 基础架构技术堆栈可以通过三个基本层更快地开发和部署应用。
应用层允许人类和计算机与基本的工作流程工具进行协作,包括使用特定模型的端到端应用或面向最终用户的非特定应用。面向最终用户的应用通常使用开源 AI 框架来创建可定制的模型,并可以根据特定的业务需求进行定制。
模型层帮助 AI 产品运行。该层需要用于部署的托管解决方案,模型层包括三个模型。
通用 AI:模仿人类大脑的思考和决策能力。例如 OpenAI 的 ChatGPT 和 DALL-E 等 AI 应用。
特定 AI:使用特定数据来生成准确的结果。例如生成广告文案和歌词这样的任务。
超本地化 AI:可以实现最高精度和相关性的人工智能,旨在成为该领域的专家。例如撰写科学论文或创建室内设计模型
基础架构层包括构建和训练模型所需的硬件和软件。GPU(硬件)以及优化和部署工具(软件)等专用处理器等组件都属于这一层。云计算服务也是基础架构层的一部分。
AI 基础架构组件有哪些?
现在我们已经介绍了 AI 基础架构中涉及的三个层,下面我们来了解构建、部署和维护 AI 模型所需的几个组件。
数据存储
数据存储收集和保留各种数字信息,即以位和字节形式存在的应用、网络协议、文档、媒体、地址簿、用户偏好。强大的数据存储和管理系统对于存储、整理和检索 AI 训练和验证所需的数据量非常重要。
数据管理
数据管理是指通过数据管理软件等手段,进行数据的收集、存储和利用的过程。通过数据管理,您可以了解自己掌握哪些数据、数据所在位置、数据归谁所有、谁可以看到该数据以及如何访问数据。通过适当的控制和实施,数据管理工作流可提供所需的分析洞察,帮助做出更好的决策。
机器学习框架
机器学习(ML)是人工智能(AI)的一个子类别,它使用算法来识别一组数据中的模式并进行预测,而框架则提供所需的工具和库。
机器学习运维
机器学习运维(MLOps)是一组工作流实践,旨在简化机器学习(ML)模型的生产、维护和监控过程。受 DevOps 和 GitOps 原则的启发,MLOps 旨在建立一个连续的、不断发展的过程,以便将 ML 模型集成到软件开发过程中。
为什么 AI 基础架构至关重要?
具有成熟组件的可靠 AI 基础架构有助于创新和提高效率。然而,在设计 AI 基础架构时,需要考虑一些优势、挑战和应用。
优势
AI 基础架构可为 AI 运维和企业带来不少好处。第一个好处是可扩展性,它能提供按需扩展和缩减运维规模的机会,尤其是使用基于云的 AI/ML 解决方案。第二个则是自动化,它允许重复工作以减少错误并增加可交付成果的周转时间。
挑战
尽管 AI 基础架构具备众多优势,但它确实存在一些挑战。一大关键挑战是需要处理的数据的数量和质量。由于 AI 系统依赖大量数据来学习和决策,传统的数据存储和处理方法可能不足以处理 AI 工作负载的规模和复杂性。另一大挑战是对实时分析和决策的要求。该要求意味着基础架构必须快速高效地处理数据,这需要考虑集成合适的解决方案来处理大量数据。
AI 重塑软件产业:变化与趋势
大模型正在推动历史性的技术革命,企业想要成为 AI 科技浪潮的赢家,需要回答是否要训练自己的行业大模型、如何寻找或打造自己的 ChatGPT 时刻、如何从既有的企业 IT 架构和组织能力上支撑落地这三个问题。
大模型的四大技术驱动力,使得 AI 重塑软件成为可见的未来
驱动力 1:万物皆可 Embedding,泛化万物的通用机器智能表示
Embedding 解决了文字、图片、声音、视频转化为一个可计算的 token 的问题,使得纯文本 NLP 快速演进到多模态大模型,对整个大模型和 AI 技术浪潮产生根本性的影响。
驱动力 2:Transformer 架构催生 Scaling Law,统一了模型架构
过去经典模型没有通用性能力,解决的都是个性化问题,Transformer 架构目前被证明是最有效的大模型架构,模型参数规模、数据规模、训练计算量的规模都会显著提升大模型的智力能力,它的演进是有确定性方向的。
驱动力 3:从智能摩尔定律到场景摩尔定律,大模型成为通用生产力引擎
算力的演进,模型智力能力和模型场景泛化能力的演进,都符合摩尔定律,甚至在一定程度上,演进的速度超过了摩尔定律;就模型而言,解决的问题和适用的场景,随着时间就会自然获得,不需要在编程或者算法设计上做太多的处理。
驱动力 4:LLM OS 抽象了通用 AI 计算架构,使 AI 原生应用成为可能
LLM OS 是以大模型为核心处理单元所构造的一种理论计算架构,业界基于此做了通用实现,证明了它有解决通用问题的能力。
AI 重塑软件、赋能行业智能化
业务视角的变化
大模型带来 3 大颠覆性技术创新,即创造能力、推理能力、自然交互能力,对整个软件行业产生重大影响,主要体现在两大维度:(1)AI 赋能人,在一定程度上模拟人、超越人,比如具身智能和 AI Agent 分别在物理世界、数字世界辅助人、替代人;(2)AI 重塑存量软件及工具,显著提升人的效率及体验。
技术视角的变化
软件架构之变:传统程序或软件 1.0 是构成式架构,是精心设计的、确定性的,而 AI 原生软件或软件 2.0 是以大模型为底座的生成式架构。
软件工程之变:传统程序的软件工程是以人为本的协同式开发,强调开发流程、工具、人之间的协同配合,而以大模型为底座的软件开发过程,是以数据为本的生成式开发,对协同的要求没有那么高。
软件体验之变:传统软件是通过键盘鼠标或触摸式交互,到了 AI 原生时代则变成了时空自然交互,不止是简单对话,AI 能理解人所处的时间和空间,这是一个非常大的改变。
软件商业之变:传统上是软件即服务,是把软件功能以服务的形式去交付,现在是服务即软件,不仅提供功能,而且直接提供操作软件完成业务的“服务”。
基于这 4 个变化,会出现 3 种形态:第一种,这 4 个变化都采纳或遵从了的,就是新的 AI 原生应用(AI native);第二种,程序或应用保持不变,但改变了软件跟用户交互的方式;第三种,程序或应用保持不变,但改变了软件开发的工程和工具体系,后两类可以认为是 AI 重塑的传统软件(AI enabled)。
AI 原生架构及 AI 原生应用新范式
大模型催生新的 AI 原生应用新范式
-
新架构:从构成式架构到生成式架构的变化;
-
新体验:从键鼠与触摸到自然交互的变化;
-
新工程:从以人为本的协作开发到以数据为本的生成式开发的变化;
-
新商业:从软件即服务到服务即软件的变化。
基于这 4 点,AI 原生应用新范式包括两层意思:第一是 AI First 新思想,想做以大模型为基座的软件或应用,首要是转变思维模式;第二是 AI Native 新实践,是架构和工程方法的问题。只有将这两者综合在一起,才能真正实现以大模型为驱动力的新应用和新软件产业的落地。
AI 原生架构之变:从经典编程架构,进入生成式架构模式
传统软件强调算法、逻辑、数据,有确定的输入和确定的输出,大量的工作需要提前设计和开发,生成式的软件架构跟之前有根本的区别。模型是单独开发的,功能或场景的开发,即提示词输入,不是在大模型开发过程中确定的,而是在任务的场景上下文里确定的。整个工作方式完全发生变化,意味着整个软件开发过程中的角色、方式发生了变化。因为开发阶段只是确定了模型或软件框架,在业务过程中有实时的软件功能或者结果的生成。
AI 原生工程之变:从以人为本的协同开发,到以数据为本的生成式开发
以人为本的协同开发,无论是瀑布模式还是敏捷模式,都可以归纳为是以人为本的,特别强调项目管理和软件工程,迁移到大模型驱动的以数据为本的生成式开发,产生了几个根本性的变化:
-
全流程数字化:意味着设计和需求都可以用文本、语音、视频方式记录,通过大模型去理解、生成,之前软件开发的需求在传递过程中总有丢失,现在可能不会了,软件研发全面进入数字化时代。
-
AIGC:生成软件(software)的各种 ware,代码、测试脚本、文档都是生成式的。
-
极致的持续交付:过程中对人的依赖性极大地降低了,交付周期极致缩短,真正实现持续交付。
-
人机交互智能:人机交互过程即开发过程。
-
以数据和模型为本:研发人员服务于大模型和大数据平台。
AI 原生体验之变: 从点击、触摸交互模式到新的自然交互模式
一个应用或一个软件可以分为两层,底层是记录系统,没有变化,上层是交互系统,交互方式因大模型发生很大变化,体现在三个方面:
-
自然空间交互:基于语音、姿态、眼神,甚至脑电波等更自然的交互形式,人的 Prompt 输入速度远远跟不上大模型 token 生成的速度,未来可能基于脑机接口来作为输入。另外,不同于传统的桌面、App 入口,转为场景式的智能时空入口,没有一个确定的入口方式,功能请求随时可以被触发。
-
系统嵌套触达:未来应用之间的边界会进一步消除,不再彼此孤立,而是可嵌套的系统级触达,所有的传统应用软件最终可能退化成背后的一个个业务工具。
-
全个性化体验:之前软件交付面临定制化问题,现在以大模型为驱动,一定是以用户、以任务为中心,本身就是个性化的,业务结果是实时生成的,在这种情况下,需要一种新的跨系统、跨平台的分布式自然人身份系统,不再可能用之前传统的账号模式。
AI 原生商业之变: 从“软件即服务”到“服务即软件”的新商业模式
-
当前产业界在软件、服务和雇员费用上的开支,软件占比还较低,以大模型为驱动的 Agent 在一定程度上能辅助人或者代替人,产业空间非常大。
-
以大模型为驱动的 Agent 跟人的成本对比,目前统计是 1:80,未来比例可能会进一步放大。
-
人的知识、技能、经验如果被压缩进大模型,再以大模型为基础提供给业务场景,可以完美实现经验、技能的 0 成本复制。
AI 原生应用的架构演进与成熟度等级演进
将 AI 自主能力等级和 AI 成熟度等级作为两个象限去看,大概会经历 5 个阶段:应用+AI 特性(初级阶段)、应用+Copilot(任务阶段)、应用+Agent(助手阶段)、Agent+应用(代理阶段,Agent 为主、应用为辅)、超级智能体 ASI(共生阶段,人、AI 驱动的机器人、agent 协同工作),目前每个阶段都有在尝试,但应用的场景和范围都还有一定的限制。
参考:
什么是人工智能 (AI)?| IBM
一文理解 AI 基础架构 | 有哪些组件、优势和应用?
中国大模型图鉴:深度解读《2023大模型落地应用案例集》-科工力量