利用pdfplumber提取pdf文档内容( 二 )


读取表格
import pdfplumberimport pandas as pdwith pdfplumber.open("1.pdf") as pdf:page_third = pdf.pages[2]table_2 = page_third.extract_table()# print(table_2)table_df = pd.DataFrame(table_2[1:], columns=table_2[0])print(table_df)# 保存exceltable_df.to_excel('test.xlsx')
【利用pdfplumber提取pdf文档内容】提取表格需要处理很多细节,此处表格线框比较规范,所以可以简单提取,对于线条不完全的表格,则效果差的多 。