当前位置: 首页 > news >正文

pdf表格读取和筛选

为了从 PDF 文件中读取表格,并筛选出“注册单位”中包含“建工”的数据,可以使用 PyPDF2、pdfplumber、tabula-py 等库来解析 PDF 文件,然后再进行筛选。由于表格处理更复杂,由于表格在 PDF 文件中通常会以一种表格的形式存在,这些库可以直接读取表格并提取内容。

import pdfplumber
import pandas as pddef extract_sxjg_from_pdf(file_path):# 用于存储所有筛选出的数据selected_rows = []header =['序号', '人员姓\n名', '身份证号码', '注册类别', '注册单位']    # 打开 PDF 文件with pdfplumber.open(file_path) as pdf:for page in pdf.pages:# 提取每一页的表格数据tables = page.extract_tables()for table in tables:print(table)if not table or len(table) < 3:continue# 创建 DataFrame(跳过前两行标题)df = pd.DataFrame(table[2:], columns=header)print(df)filtered_df = df[df['注册单位'].str.contains('建工第五', na=False) | df['注册单位'].str.contains('建工集团', na=False)]# 如果有符合条件的行,则添加到结果列表中if not filtered_df.empty:selected_rows.append(filtered_df)# 合并所有符合条件的 DataFrameif selected_rows:result_df = pd.concat(selected_rows, ignore_index=True)return result_dfelse:return pd.DataFrame()  # 返回空的 DataFrame# 读取 PDF 文件路径
file_path = "/debug/20241023.pdf"  # 替换为实际的 PDF 文件路径
result_df = extract_sxjg_from_pdf(file_path)# 检查并输出结果
if not result_df.empty:print("筛选出的包含'建工'的注册单位名单:")print(result_df)result_df.to_excel(r'/debug/result_df.xlsx',index=None)
else:print("没有找到包含'建工'的注册单位的记录。")

http://www.mrgr.cn/news/57283.html

相关文章:

  • Android使用协程实现自定义Toast
  • JMeter模拟并发请求
  • iTOP-RK3568开发板独立NPU通过算法加特应用到以下的场景
  • Kibana可视化Dashboard如何基于字段是否包含某关键词进行过滤
  • 基于fpga技术的脉冲信号源设计(论文+源码)
  • #Swift 下标 Subscript - Access the elements of a collection
  • ArrayList 源码分析
  • 论文精读:TiC-CLIP: Continual Training of CLIP Models(二)
  • 搜维尔科技:使用CyberGlove数据手套控制机械手遥操作拿鸡蛋
  • LPDDR4/LPDDR4X讲解(一)
  • 香橙派、树莓派与Jetson的选择攻略:为您的项目找到最佳匹配
  • 【BJWC2008】王之财宝Gate Of Babylon——超详解
  • 时间同步协议有哪些?
  • 【redis】基础指令|数据结构总览|单线程架构分析
  • 为您的 Raspberry Pi 项目选择正确的实时操作系统(RTOS)
  • Java:抽象类和接口
  • Linux内核 -- `dynamic_debug` 使用指南
  • ELRS遥控器与接收机WIFI对频
  • python-----函数详解(一)
  • 组件可控个性化生成新方法MagicTailor:生成过程中可以自由地定制ID
  • libaom 编解码项目编码接口文件介绍
  • MySQL笔试面试题之AI答(2)
  • Docker 基础入门
  • 破四元!一区飞蛾扑火算法+时序卷积+双向单元+注意力机制!MFO-TCN-BiGRU-Attention多变量时间序列预测
  • MySQL优化手段有哪些
  • 好看的动态屏保来了 今年不能错过的视觉盛宴