python处理大量数据excel表格中间格式神器pickle.pkl文件操作说明

长虫山小木屋 / 2024-10-11 / 原文

读取写入千万级别的excel文件费时费力,调试起来比较慢,面对这个问题,第一步可以先无脑全部转换成pkl文件,这样几乎和内存操作一样的速度。

例如:

t=pd.read_excel("12月.xlsx",sheet_name=None)

excel全表读入,然后无脑写入硬盘:

import pickle
with open('test.pkl', 'wb') as f: pickle.dump(t,f)

用起来就直接取,操作速度几乎媲美内存操作吧

with open('test.pkl', 'rb') as f:
    t = pickle.load(f)

和pandas结合的操作是:

df.to_pickle(newfile)            #写
d = pd.read_pickle(thefile)      #读