当前位置：首页 > news >正文

RAG优化：python从零实现Proposition Chunking[命题分块]让 RAG不再“断章取义”，从此“言之有物”！

news 2025/4/3 7:25:36

“学习不是装满一桶水，而是点燃一把火。” —— 叶芝

我的博客主页： https://lizheng.blog.csdn.net

大家好，本篇要聊的是一个让 RAG不再“断章取义”的神奇技术——命题分块（Proposition Chunking）from Dense X Retrieval: What Retrieval Granularity Should We Use?。

你有没有遇到过这样的情况：你问RAG 一个问题，它给你回答了一大段话，结果你发现它只抓住了你问题的“皮毛”，甚至完全跑偏了？比如你问：“AI 的伦理问题有哪些？”它却回答：“AI 的发展历史可以追溯到 1956 年……”（喂，谁问你历史了！）

这就是传统分块方法的“锅”——它只会机械地把文本切成一块一块，完全不管这些块是不是有意义。而我们的命题分块，就像是一个“文本拆解大师”，它能把文档拆成一个个原子化的事实，让 RAG 不再“断章取义”，从此“言之有物”！

想象一下，RAG 现在不仅能回答“AI 的伦理问题有哪些？”，还能精准地告诉你：“AI 的伦理问题包括数据偏见、隐私泄露、算法透明度……”——是不是瞬间感觉 AI 变得靠谱多了？

- - 🧠 向所有学习者致敬！
  - 🌐 欢迎[点击加入AI人工智能社区](https://bbs.csdn.net/forums/b8786ecbbd20451bbd20268ed52c0aad?joinKey=bngoppzm57nz-0m89lk4op0-1-315248b33aafff0ea7b)！
三大法宝
- - 1. **精准检索：不再“断章取义”**
  - 2. **更小的粒度：让检索更灵活**
  - 3. **过滤低质量信息：让回答更靠谱**
  - 4. **更高效的问答系统**
  - 5. **更好的用户体验**
动手python实现
- 环境设置
- 从 PDF 文件中提取文本
- 对提取的文本进行分块
- 设置 OpenAI API 客户端
- 简单的向量存储实现
- 创建嵌入
- 命题生成
- 命题质量检查
- 完整的命题处理管