AI科研助手开发总结:向量与数据权限的应用(一)
一、业务场景
1.1 概述
大语言模型(LLM)作为自然语言处理领域的核心技术,具有丰富的自然语言处理能力。LLM 在处理特定领域的知识时存在一定的局限性,特别对于垂直领域内,或者企业内部等私域专属知识。通常通常采用向量数据方案对知识进行扩充。
向量数据库在AI应用中提供了强大的数据存储、检索和管理能力,尤其适合处理非结构化数据和执行复杂的相似度搜索任务,同时保证了数据的安全性和系统的高性能。
在开发AI科研助手中,我们结合产品需求和向量技术特性,从而实现了向量与数据权限的应用。
企业知识库或其他数据通常设置权限访问:某些文档是公开的,全员可见;某文档是非公开的,只能由某些人或某些组、某些部门的人可见。
数据类型:公开数据、非公开数据
1.2 场景用例
数据权限的管理非常普遍且重要,传统DB或文件有成熟的解决方案,对于向量数据来说,是否有更适合的方案?
二、数据流程
结合业务用例,描述向量的生成和查询流程如下:
三、方案
- 方案一:向量库存储数据,外部DB维护和管理数据权限。
- 方案二:向量库存储数据及权限,向量库统一维护和管理数据权限。
针对不同业务场景和软件架构,可以选择合适的方案,有其他方案可一起探讨。
方案一在非向量领域中应用广泛,赞不做探讨,本文将针对方案二进行分享和讨论。