当前位置: 首页 > news >正文

羲和数据集收集器1.4

为了确保代码能够正确地提取并保存 QA 对,我们需要进一步调试和优化。特别是要确保 extract_qa_pairs_from_content 函数能够正确识别和处理不同格式的 QA 对,并且 write_qa_pairs_to_file 函数能够正确地将 QA 对写入文件。

以下是进一步完善的代码:

import os
import json
import fitz  # PyMuPDF
import docx
import re
import tkinter as tk
from tkinter import filedialog, messagebox, simpledialog
import logging# 设置日志记录
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')def clean_text(text):""" 清理文本,去除多余的空白字符和标点符号,替换影响数据集的特殊字符 """text = re.sub(r'\s+', ' ', text)  # 合并多个空白字符text = re.sub(r'[^\w\s]', '', text)  # 去除标点符号text = re.sub(r'"', "'", text)  # 替换双引号text = re.sub(r'\\', '/', text)  # 替换反斜杠return text.strip()def extract_qa_pairs_from_txt(file_path):with open(file_path, 'r', encoding='utf-8') as f:content = f.read()content = clean_text(content)qa_pairs = extract_qa_pairs_from_content(content)return qa_pairsdef extract_qa_pairs_from_docx(file_path):doc = docx.Document(file_path)content = []for para in doc.paragraphs:content.append(para.text)for table in doc.tables:for row in table.rows:for cell in row.cells:content.append(cell.text)for rel in doc.part.rels.values():if "textBox" in rel.target_ref:text_box = rel.target_partfor element in text_box.element.body:if element.tag.endswith('p'):content.append(element.text)content = '\n'.join(content)content = clean_text(content)qa_pairs = extract_qa_pairs_from_content(content)return qa_pairsdef extract_qa_pairs_from_pdf(file_path)

http://www.mrgr.cn/news/71955.html

相关文章:

  • mybatis学习(7/134)
  • 港科夜闻 | 香港科大与微软亚洲研究院签署战略合作备忘录,推动医学健康教育及科研协作...
  • jupyter notebook练手项目:线性回归——学习时间与成绩的关系
  • 哥大开发AI模型助力癌症和遗传病研究,近屿智能专注培养AI人才
  • 电脑分辨率调到为多少最佳?电脑分辨率最佳设置
  • 学技术学英语:ELK是什么
  • PyQt入门指南五十五 持续集成与部署
  • Java-sec-code-SSRF攻击
  • Day 63 || 拓扑排序、dijkstra
  • 最新版【H5商城直接部署】
  • npm list -g --depth=0(用来列出全局安装的所有 npm 软件包而不显示它们的依赖项)
  • Javascript高级—DOM树的深度遍历和广度遍历
  • PyQt入门指南五十四 依赖管理与打包发布
  • Android Framework AMS(14)ContentProvider分析-1(CP组件应用及开机启动注册流程解读)
  • 深入FastAPI:路径参数、查询参数及其检校
  • 计算机毕业设计Hadoop+Spark高考推荐系统 高考分数线预测 知识图谱 高考数据分析可视化 高考大数据 大数据毕业设计 Hadoop 深度学习
  • 元宇宙及其技术
  • Flink CDC(SQL Client)连接 MySQL 数据库教程
  • 数据结构中的抽象数据类型、逻辑结构、存储结构等到底是什么?
  • Linux学习笔记之shell快速入门及相关变量
  • PYNQ 框架 - 中断(INTR)驱动
  • 阿里巴巴通义灵码推出Lingma SWE-GPT:开源模型的性能新标杆
  • 音视频入门基础:MPEG2-TS专题(4)——使用工具分析MPEG2-TS传输流
  • JavaScript案例-轮播图
  • LeetCode【0019】删除链表的倒数第N个结点
  • 论文3—《基于YOLOv5s的农田垃圾轻量化检测方法》文献阅读分析报告