Python操作Excel
1. Python 操作 Excel 的函数库
我主要尝试了 3 种读写 Excel 的方法:
1〉 xlrd, xlwt, xlutils: 这三个库的好处是不需要其它支持,在任何操作系统上都可以使用.xlrd 可以读取 。xls, .xlsx 文件,非常好用;但因为 xlwt 不能直接修改 Excel 文档,必须得复制一份然后另存为其它文件,而且据说写复杂格式的 Excel 文件会出现问题,所以我没有选它来写 Excel 文件。
2> openpyxl: 这个库也是不需要其它支持的,而且据说对 Office 2007 格式支持得更好。遗憾地是,我经过测试,发现它加载 Excel 文件的效率比 xlrd 慢 3 倍以上,内存使用在 10 倍以上,于是就放弃了。
3〉 win32com: Python Win32 扩展,这个库需要运行环境为 Windows+Office 对应版本。由于 Python Win32 扩展只是把 COM 接口包装了一下,可以视为与 VBA 完全相同,不会有读写格式上的问题。尝试了一下用 win32com 读取 Excel 文件,效率还是比 xlrd 慢一些。
由于读取效率上 xlrd > win32com 〉 openpyxl,所以我自然选择了 xlrd 用来读取统计报表;而最终输出的报表格式较复杂,所以选择了 win32com 直接操作 Excel 文件。
2. Python 里的关系型数据库
SQLite 是一个非常轻量级的关系型数据库,很多语言和平台都内置 SQLite 支持,也是 iOS 和 Android 上的默认数据库。Python 的标准库里也包含了 sqlite3 库,用起来非常方便.
3. 用 xlrd 读取 Excel 并插入数据库样例
如果数据量不大,直接用 Python 内部数据结构如 dict, list 就够了。但如果读取的几张表数据量都较大,增加个将数据插入数据库的预处理过程就有很大好处。一是避免每次调试都要进行耗时较长的 Excel 文件载入过程;二是能充分利用数据库的索引和 SQL 语句强大功能进行快速数据分析。
#!/usr/bin/python
# —*— coding: gbk -*-
import xlrd
import sqlite3
# 打开数据库文件
device_city_db = sqlite3.connect('device_city。db’)
cursor = device_city_db。cursor()
# 建表
cursor。execute(’DROP TABLE IF EXISTS device_city’)
cursor.execute(’CREATE TABLE device_city (device_id char(16) PRIMARY KEY, city varchar(16))')
# 打开 device 相关输入 Excel 文件
device_workbook = xlrd。open_workbook(’输入.xlsx')
device_sheet = device_workbook.sheet_by_name(’设备表')
# 逐行读取 device—城市 映射文件,并将指定的列插入数据库
for row in range(1, device_sheet.nrows):
device_id = device_sheet。cell(row, 6)。value
if len(device_id) 〉 16:
device_id = device_id[0:16]