当前位置: 首页 > news >正文

数据集收集器0.3

为了进一步完善代码,使其能够识别更多格式的问答对,并且在遇到无法识别的格式时能够跳过并继续处理下一个,我们可以采取以下措施:

增强正则表达式:支持更多的问答对格式。
增加容错处理:在遇到无法识别的格式时,记录错误并继续处理下一个。
多模式匹配:支持多种问答对的格式,例如 Q: 问题 A: 回答、问题: 回答、数字. 问题 等。
以下是改进后的代码:

import os
import json
import fitz  # PyMuPDF
import docx
import redef clean_text(text):""" 清理文本,去除多余的空白字符和标点符号 """text = re.sub(r'\s+', ' ', text)  # 合并多个空白字符text = re.sub(r'[^\w\s]', '', text)  # 去除标点符号return text.strip()def extract_qa_pairs_from_txt(file_path):with open(file_path, 'r', encoding='utf-8') as f:content = f.read()content = clean_text(content)qa_pairs = extract_qa_pairs_from_content(content)return qa_pairsdef extract_qa_pairs_from_docx(file_path):doc = docx.Document(file_path)content = '\n'.join([para.text for para in doc.paragraphs])content = clean_text(content)qa_pairs = extract_qa_pairs_from_content(content)return qa_pairsdef extract_qa_pairs_from_pdf(file_path):doc = fitz.open(file_path)content = ''for page_num in range(len(doc)):page = doc.load_page(

http://www.mrgr.cn/news/67636.html

相关文章:

  • oracle-函数-grouping sets(x1,x2,x3...)的妙用
  • elementplus+vue3显示第几周(el-date-picker)
  • 【WPF】把一个Window放在左上角/右上角顶格显示
  • Rancher的安装
  • 如何在家庭网络中设置静态IP地址:一份实用指南
  • 讲解JVM日志的查看及解决系统频繁GC问题
  • 代码随想录算法训练营Day55 | 图论理论基础、深度优先搜索理论基础、卡玛网 98.所有可达路径、797. 所有可能的路径、广度优先搜索理论基础
  • 魅力标签云,奇幻词云图 —— 数据可视化新境界
  • 新书速览|C++编程之禅:从理论到实践
  • springboot 之 接口数据脱敏
  • 想转行做大模型?AI产品经理转行必读指南
  • 牵手APP引领交友新风尚,多元匹配助力寻找心仪伴侣
  • #渗透测试#SRC漏洞挖掘# 操作系统-Linux系统基础06之ssh服务、history
  • 在Ubuntu下安装RabbitMQ、添加一个新的登录用户并设置密码
  • 使用Python将EPUB电子书网文主角换成自己
  • .baxia勒索病毒来袭:数据恢复与防护措施详解
  • 【提效工具开发】Python功能模块执行和 SQL 执行 需求整理
  • 【C#】创建一个主菜单和弹出菜单系统
  • 归并排序:高效算法的深度解析
  • 卷积神经网络——pytorch与paddle实现卷积神经网络
  • 用ChatGPT完成高质量文献综述全过程实操指南,用高级学术版专业应用gpts轻松搞定
  • AndroidRuntime学习总结
  • C++对象模型:站在对象模型的尖端
  • QML中Var详细介绍
  • 掌握GLM-4大模型微调技巧:入门级实战教程——命名实体识别(NER)任务
  • WebAPI 初学 Visual Studio 2022,.NET 6.0(EF 代码迁移)