以deepseek为例的AI学习及公司知识库的搭建
一、 如何下载模型参考下列文章和视频
https://testerhome.com/articles/41474
https://www.bilibili.com/video/BV1QyFoeuE3e/?spm_id_from=333.1387.favlist.content.click&vd_source=13dd0c4a82a579a2d8aef2ac9bf547bc
-
启动模型命令
ollama run deepseek-r1:1.5b
-
列出本地已下载的 AI 模型
ollama list
二、 如何搭建公司的知识库
大概流程:数据准备→预处理→向量化存储→模型集成→构建检索和生成系统→权限和界面开发→测试优化→部署维护
1 .数据准备阶段
1 预处理
三、 名词解释
- AGI:
通用人工智能(Artificial General Intelligence),是指具有高效的学习和泛化能力、能够根据所处的复杂动态环境自主产生并完成任务的通用人工智能体,具备自主的感知、认知、决策、学习、执行和社会协作等能力,且符合人类情感、伦理与道德观念 [1]。其研究发展通常涉及众多学科领域,包括计算机科学、认知科学、心理学、神经科学等.(这个是AI的终极目标)
- Hugging Face( https://huggingface.co/):
Hugging Face Hub 允许用户上传、分享、管理 AI 模型、数据集和代码。你可以 Fork 其他人的模型,就像在 GitHub 上 Fork 代码一样。总结:Hugging Face 作为 AI 领域的 GitHub/Docker Hub
- 神经网络
- 前向传播
- RGA
- ollama
Ollama 是一个开源的人工智能平台,旨在为开发者提供更便捷的方式来构建和部署基于大型语言模型(LLMs,Large Language Models)的应用。它的目标是提供一种高效、简洁且低成本的方式来运行和集成语言模型,允许用户在本地环境中高效地使用 AI总结;像 运行 Docker 容器,但 Ollama 聚焦于 AI 模型的运行,而不涉及其他复杂的部署步骤
- Agent(智能体):最重要的思考模型,一堆流程、工具和api,具有意图识别(词槽 还有反问用户生成模型时确实的东西 如点外卖 会追问你喜好和价格)、意图转移等功能
总结:如查询今天订单总价格 他就知道去调用哪个api了
智能体参考(https://meeting.tencent.com/cw/2GoPkEpMe5)
- 词向量
词向量(Word Embedding)是一种将词语映射到高维向量空间的技术。通过这种方式,每个词都被表示为一个固定长度的向量(通常是几十到几百维)。这些向量能够捕捉词与词之间的语义关系,使得相似意义的词在向量空间中彼此靠得更近。例如,“王”和“皇帝”在词向量空间中会比“王”和“狗”更接近。 - 向量库
向量库(Vector Database):向量库是用于存储和管理高维向量的数据库。由于现代AI任务中,经常需要处理大量的向量数据,特别是词向量、句向量、图像特征向量等,传统的关系型数据库并不适合存储和高效地查询这些数据。因此,向量数据库被开发出来,以便对这些高维数据进行快速的插入、存储、检索和相似度计算 - 余弦相似度
余弦相似度用来衡量两个词向量之间的相似度,计算的是它们的角度大小。对于两个词语,如果它们的词向量之间的夹角较小(即余弦相似度接近1),那么这两个词语的语义较为相近。比如,“猫”和“狗”的词向量之间的余弦相似度通常较高,因为它们都是常见的宠物。
词向量、 向量库与余弦相似度之间得关系
举个实际例子,假设我们有一个搜索引擎,当用户输入一个查询词时:
这个查询词首先被转换成词向量(比如 “猫” → 词向量A)。
然后,在向量库中检索所有词的向量,并计算它们与词向量A的余弦相似度。
最后,返回那些与查询词“猫”最相似的词(比如“狗”,“宠物”)。
所以,这三者结合在一起,构成了一个有效的文本检索、推荐或理解的基础。