当前位置: 首页 > news >正文

算命公司网站建设制作开发方案seo标题优化的心得总结

算命公司网站建设制作开发方案,seo标题优化的心得总结,热铁盒网页托管,关于干外贸的一些好的学习网站在对PDF中的表格进行再利用时,除了直接将PDF文档转换为Excel文件,我们还可以提取PDF文档中的表格数据并写入Excel工作表。这样做可以避免一些不必要的文本和格式带来的干扰,获得更易于分析和处理的表格数据,并方便进行更多的格式设…

在对PDF中的表格进行再利用时,除了直接将PDF文档转换为Excel文件,我们还可以提取PDF文档中的表格数据并写入Excel工作表。这样做可以避免一些不必要的文本和格式带来的干扰,获得更易于分析和处理的表格数据,并方便进行更多的格式设置。利用Python,我们可以实现对PDF表格数据的批量提取,并写入Excel工作表中,实现高效的提取写入操作。本文将介绍如何使用Python提取PDF文档中的表格并写入Excel文件中

本文所使用的方法需要用到Spire.PDF for Python和Spire.XLS for Python,PyPI:pip install spire.pdf, spire.xls

申请免费License

Python提取PDF表格数据写入Excel工作表

提取表格需要用到Spire.PDF for Python中的PdfTableExtractor类。我们可以使用载入的PDF文档创建一个PdfTableExtractor对象,然后使用PdfTableExtractor.ExtractTable()方法直接提取指定页面的所有表格返回为列表。然后,我们可以使用PdfTable.GetText()来获取表格指定单元格的文本,再使用Spire.XLS for Python新建工作表并写入读取的数据到工作表中的相应位置。最后,对工作表进行合适的格式设置,即可完成PDF表格数据到Excel工作表的提取。

以下是详细操作步骤:

  1. 导入所需模块。
  2. 创建 PdfDocument 对象,并使用 PdfDocument.LoadFromFile() 方法加载PDF文档。
  3. 创建一个 Workbook 对象,并使用 Workbook.Worksheets.Clear() 方法清除默认工作表。
  4. 为加载的PDF文档创建一个 PdfTableExtractor 对象。
  5. 使用 PdfTableExtractor.ExtractTable() 方法提取文档中每一页的表格。
  6. 遍历每个表格
    • 使用 Workbook.Worksheets.Add() 方法为每个表格在工作簿中添加一个工作表。
    • 使用 Table.GetText() 方法遍历各行各列以获取单元格值,并通过 Worksheet.Range[].Text 属性将其插入工作表的相应位置。
    • 设置单元格格式。
  7. 使用 Workbook.SaveToFile() 方法保存工作簿。
  8. 释放资源。

代码示例

from spire.pdf import *
from spire.xls import *# 创建一个 PdfDocument 对象
pdf = PdfDocument()
# 加载一个 PDF 文档
pdf.LoadFromFile("示例.pdf")# 创建一个 Workbook 对象
workbook = Workbook()
# 清除默认工作表
workbook.Worksheets.Clear()# 创建一个 PdfTableExtractor 对象
extractor = PdfTableExtractor(pdf)# 从每个 PDF 页面提取表格
for pageIndex in range(pdf.Pages.Count):tables = extractor.ExtractTable(pageIndex)# 如果有多个表格则迭代if tables is not None:for tableIndex in range(len(tables)):# 获取一个表格table = tables[tableIndex]# 为该表格创建一个工作表sheet = workbook.Worksheets.Add(f"Page{pageIndex + 1}-Table{tableIndex + 1}")# 迭代表格的行和列for rowIndex in range(table.GetRowCount()):for colIndex in range(table.GetColumnCount()):# 获取单元格的值text = table.GetText(rowIndex, colIndex)cellText = text.replace("\n", "")# 将单元格的值写入工作表中的相应单元格sheet.Range[rowIndex + 1, colIndex + 1].Text = cellText# 设置表头行样式sheet.Rows.get_Item(0).Style.Font.FontName = "HarmonyOS Sans SC"sheet.Rows.get_Item(0).Style.Font.Size = 12sheet.Rows.get_Item(0).Style.Font.IsBold = Truesheet.Rows.get_Item(0).Style.HorizontalAlignment = HorizontalAlignType.Center# 设置数据行样式for i in range(1, sheet.Rows.Count):sheet.Rows.get_Item(i).Style.Font.FontName = "HarmonyOS Sans SC"sheet.Rows.get_Item(i).Style.Font.Size = 12sheet.Rows.get_Item(i).Style.HorizontalAlignment = HorizontalAlignType.Left# 自动调整列宽for j in range(1, sheet.Columns.Count):sheet.AutoFitColumn(j)# 保存工作簿
workbook.SaveToFile("output/PDFTableToExcel.xlsx", FileFormat.Version2016)
workbook.Dispose()
pdf.Close()

结果
Python提取PDF表格写入Excel

本文演示了如何使用Python提取PDF文档表格数据到Excel文件中。

更多PDF文档操作技巧请前往Spire.PDF for Python教程查看。

http://www.hrbkazy.com/news/53410.html

相关文章:

  • 江苏省镇江市丹阳市疫情最新消息郑州seo优化外包热狗网
  • 7月新闻大事件30条全专业优化公司
  • 上海网站建设 迈seo文章是什么意思
  • 长沙网站seo收费标准3分钟搞定网站seo优化外链建设
  • 关于内网站建设的请示培训机构哪家好
  • 顺义网站建设廊坊seo排名公司
  • 怎么做网站的后台管理系统手机百度高级搜索
  • 望野什么意思郑州网络seo公司
  • 建设优化一个网站步骤最佳搜索引擎
  • wordpress中文转拼音长春网站优化咨询
  • 企业网站优化的三层含义属于seo网站优化
  • wordpress插件随机文章西安seo报价
  • 中国建设网官方网站发改委移动排名提升软件
  • 网络营销型网站设计竞价托管一般多少钱
  • 网站重要性全部列表支持安卓浏览器软件下载
  • 网上哪里有辅导高考生做难题的网站短链接生成网址
  • 新开传奇网站排行一键识图找原图
  • 怎么做自动跳转网站怎么优化一个网站
  • 做系统后怎么找回网站收藏夹广告联盟下载app
  • 常州网站建设公司如何网络运营需要学什么
  • 网站开发行业竞争大吗网络营销方案设计
  • wordpress 悬浮联系百度seo收录软件
  • wordpress 关闭插件更新优化网站标题和描述的方法
  • 龙华营销型网站建设公司软件开发需要学什么
  • 江苏做网站公司拉人头最暴利的app
  • wordpress子域名网站磁力链最佳的搜索引擎
  • 简单网页代码html作业网站优化推广排名
  • wordpress站点自动推送排名优化网站
  • 网站建设技术风险分析seo技巧优化
  • dede做的网站被植入广告湖南疫情最新消息今天