当前位置: 首页 > news >正文

大语言模型学习--向量数据库基础知识

1.向量

向量是多维数据空间中的一个坐标点。

向量类型

图像向量 文本向量  语音向量

Embedding

非结构化数据转换为向量过程

通过深度学习训练,将真实世界离散数据,投影到高维数据空间上,通过数据在空间中间的距离体现真实世界的相似度

Vector Embedding 向量嵌入

将非数值词语符号等非结构化数据编码成数值向量

Word Embedding 词嵌入

通过NN学习,文本中词语作为NN输入,输出对应词向量 Word Vector。词向量是一个数值向量,每个数值代表词语的某个特征

向量的每个数值表示某个特征,只要向量足够大,特征区分足够明显

2.向量数据库

向量数据库为向量数据提供专用的存储和索引机制

向量数据被存储为高维空间中的点

向量数据库发展阶段

向量存储类型

1.私域知识 Domain Knowledge

可以把向量数据库作为大模型的外挂知识库

2.本地存储 Local Storage

将向量数据存储到本地

3.长期记忆 Long Time Storage

大模型具有短期记忆,具有上下文信息数量限制。

向量数据库作为外部数据库 存储单次上传的超大文本 对外内容等信息,为大模型提供理论上没有上限的长期记忆

向量数据库作用

1.相似性搜索

根据向量距离或相似性对向量数据进行快速准确的相似性搜索,即可以根据语义或者上下文含义查找最相似或相关的数据

2.提升性能

相似度计算 相似性搜索 高效存储 分布式

向量数据库评价指标

1.准确率   

检索相关的向量/检索出向量总数

2.召回率

检索相关的向量/向量数据中相关的向量总数

3.每秒平均吞吐

每秒向量数据库能够处理的查询请求次数

4.平均响应延迟

请求平均响应时间

向量相似度计算

向量索引

向量数据库索引分类

按照数据结构

哈希索引

树索引

图索引

倒排文件索引

按照量化压缩

相似性搜索算法

相似性搜索算法

向量数据量应用场景

图像相似性搜索

视频相似性搜索

音频相似性搜索

推荐系统

问答系统

混合搜索系统

大模型与向量数据库

当前主流向量数据库

2024年精选推荐的16个向量数据库:提升你的AI应用性能-CSDN博客

相关学习资料

三天搞定【大模型系列】之向量数据库教程(搭建、原理、实战)_哔哩哔哩_bilibili

【上集】向量数据库技术鉴赏_哔哩哔哩_bilibili

【下集】向量数据库技术鉴赏_哔哩哔哩_bilibili


http://www.mrgr.cn/news/93576.html

相关文章:

  • Ubuntu 下 nginx-1.24.0 源码分析 - ngx_init_cycle 函数
  • PyTorch中的线性变换:nn.Parameter VS nn.Linear
  • C#使用winform实现简单的梯形图指令编译和执行,带编译器和虚拟机代码
  • Wpf-ReactiveUI-Usercontrol与主界面交互
  • C语言实现贪吃蛇
  • 高考數學。。。
  • 200W数据需要去重,如何优化?
  • 20250306-笔记-精读class CVRPEnv:step(self, selected)
  • Flink深入浅出之03:状态、窗口、checkpoint、两阶段提交
  • FPGA学习篇——Verilog学习3(关键字+注释方法+程序基本框架)
  • 蓝桥杯单片机——第十五届蓝桥杯省赛
  • STM32之I2C硬件外设
  • C语言100天练习题【记录本】
  • STM32之硬件SPI
  • 苦瓜书盘官网,免费pdf/mobi电子书下载网站
  • 100天精通Python(爬虫篇)——第115天:爬虫在线小工具_Curl转python爬虫代码工具(快速构建初始爬虫代码)
  • Kubernetes Pod网络组件解析与选型指南
  • python从入门到精通(二十五):文件操作和目录管理难度分级练习题
  • 【华三】STP端口角色与状态深度解析
  • MySQL------存储引擎和用户和授权