当前位置: 首页 > news >正文

轻松搭建自己的RAG知识库


程序员的公众号:源1024获取更多资料,无加密无套路!

最近整理了一波电子书籍资料,包含《Effective Java中文版 第2版》《深入JAVA虚拟机》,《重构改善既有代码设计》,《MySQL高性能-第3版》,《Java并发编程实战》等等
获取方式: 关注公众号并回复 电子书 领取,更多内容持续奉上


Retrieval-Augmented Generation  (检索增强生成)

RAGFlow

RAGFlow 是一款基于深度文档理解构建的开源 RAG(Retrieval-Augmented Generation)引擎。RAGFlow 可以为各种规模的企业及个人提供一套精简的 RAG 工作流程,结合大语言模型(LLM)针对用户各类不同的复杂格式数据提供可靠的问答以及有理有据的引用。

主要功能

Quality in, quality out

  • 基于深度文档理解,能够从各类复杂格式的非结构化数据中提取真知灼见。

  • 真正在无限上下文(token)的场景下快速完成大海捞针测试。

🍱基于模板的文本切片

  • 不仅仅是智能,更重要的是可控可解释。

  • 多种文本模板可供选择

🌱 有理有据、最大程度降低幻觉(hallucination)

  • 文本切片过程可视化,支持手动调整。

  • 有理有据:答案提供关键引用的快照并支持追根溯源。

🍔 兼容各类异构数据源

  • 支持丰富的文件类型,包括 Word 文档、PPT、excel 表格、txt 文件、图片、PDF、影印件、复印件、结构化数据, 网页等。

🛀 全程无忧、自动化的 RAG 工作流

  • 全面优化的 RAG 工作流可以支持从个人应用乃至超大型企业的各类生态系统。

  • 大语言模型 LLM 以及向量模型均支持配置。

  • 基于多路召回、融合重排序。

  • 提供易用的 API,可以轻松集成到各类企业系统。

架构图

图片

快速开始

# 克隆仓库$ git clone https://github.com/infiniflow/ragflow.git
# 启动服务$ cd ragflow/docker$ chmod +x ./entrypoint.sh$ docker compose -f docker-compose-CN.yml up -d

免费体验

在线体验地址

https://demo.ragflow.io/knowledge

主要功能有五部分组成:知识库、聊天、搜索、Agent、文件管理。

图片

知识库

数据集

图片

检索测试

图片

配置

支持设置语言、权限、嵌入模型、解析方法、自动关键词、自动问题、块Token数、分段标识符、布局识别、表格转HTML、使用召回增强RAPTOR策略

图片

图片

图片

聊天

支持助理配置、提示引擎、模型设置。

图片

提示引擎:支持设置相似度阈值、关键字相似度权重、多轮对话优化、Rerank模型

图片

模型设置:支持选择大预言模型、自由(谨慎程度)、温度(预测随机性)、TOP N(预测随机性)、出席处罚、频率惩罚、最大token数。

图片

搜索

基于创建的知识库进行搜索

图片

文件管理

图片

github开源地址

https://github.com/infiniflow/ragflow

gitee地址

https://gitee.com/li_zhixi/RAGFlow


 

 系列文章索引

MyBatis的插件能在哪些地方进行拦截?

了解MyBatis的缓存机制吗

面试官:谈谈对volatile的理解

Spring中用到了哪些设计模式

面试官:说一下SQL的执行过程

线程池的工作原理



http://www.mrgr.cn/news/71847.html

相关文章:

  • C++内存泄露排查
  • 音频DSP的发展历史
  • 深入Android架构(从线程到AIDL)_22 IPC的Proxy-Stub设计模式04
  • CSS:定位
  • Unreal Engine 5 (UE5) Metahuman 的头部材质
  • python学习整理
  • 论文2—《基于柔顺控制的智能神经导航手术机器人系统设计》文献阅读分析报告
  • 代码训练营 day64|算法优化、带负权值图的最短路径
  • 一维前缀和/差分,二维前缀和/差分
  • 【时时三省】(C语言基础)函数介绍strtok
  • 概率论中的PMF、PDF和CDF
  • 关于CJS,AMD,CMD,UMD的了解
  • 推荐一款强大的行车记录仪播放器:Dashcam Viewer Plus
  • Java小型项目-音乐评论分析
  • 论文解读:CARAT
  • cache(五)Write-through,Write-back,Write-allocate,No-write-allocate
  • 【t365】基于springboot的高校疫情防控系统
  • uniapp路由与页面跳转详解:API调用与Navigator组件实战
  • linux性能提升之sendmmsg和recvmmsg
  • kafka夺命连环三十问(16-22)
  • A/B测试的误区与优化策略:如何最大化客户留存ROI?
  • 【LeetCode】【算法】136. 只出现一次的数字
  • 数据结构《链表》
  • ML 系列: 第 23 节 — 离散概率分布 (多项式分布)
  • 【MySQL 保姆级教学】事务的自动提交和手动提交(重点)--上(13)
  • 移动电源测试中最核心的测试项目有哪些?-纳米软件