当前位置: 首页 > news >正文

成都疫情防控最新消息seo排名点击 seo查询

成都疫情防控最新消息,seo排名点击 seo查询,小程序开发网上商城,企业解决方案文章目录 一、前言二、实现方法1. 目录结构2. 代码 一、前言 此方法只能转文本格式的pdf,如果是图片格式的pdf需要用到ocr包,以后如果有这方面需求再加这个方法 二、实现方法 1. 目录结构 2. 代码 pdf2txt.py 代码如下 #!/usr/bin/env python # -*- …

文章目录

  • 一、前言
  • 二、实现方法
    • 1. 目录结构
    • 2. 代码


一、前言

此方法只能转文本格式的pdf,如果是图片格式的pdf需要用到ocr包,以后如果有这方面需求再加这个方法


二、实现方法

1. 目录结构

在这里插入图片描述


2. 代码

pdf2txt.py 代码如下

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import json
import osfrom pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage, PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParamsdef batch_process(src_dir, tgt_dir):'''批处理:return:'''for pdf_name in os.listdir(src_dir):pdf_path = os.path.join(src_dir, pdf_name)text_path = os.path.join(tgt_dir, f'{os.path.splitext(pdf_name)[0]}.txt')json_path = os.path.join(tgt_dir, f'{os.path.splitext(pdf_name)[0]}.json')pdf_utils = PDFUtils()pdf_list = pdf_utils.pdf2list(pdf_path)# pdf2txtwith open(text_path, mode='w', encoding='utf-8') as f:f.write(''.join([''.join(page) for page in pdf_list]))# pdf2jsonwith open(json_path, mode='w', encoding='utf-8') as f:f.write(json.dumps(pdf_list, ensure_ascii=False))class PDFUtils():def __init__(self):passdef pdf2list(self, path):pdf_list = []   # 二维数组,一维放页,二维放行with open(path, 'rb') as f:praser = PDFParser(f)doc = PDFDocument(praser)if not doc.is_extractable:raise PDFTextExtractionNotAllowedpdfrm = PDFResourceManager()laparams = LAParams()device = PDFPageAggregator(pdfrm, laparams=laparams)interpreter = PDFPageInterpreter(pdfrm, device)for page_idx, page in enumerate(PDFPage.create_pages(doc)):line_list = []   # 保存每行数据# print(page_idx)interpreter.process_page(page)layout = device.get_result()for line_idx, line in enumerate(layout):# print(line_idx)if hasattr(line, "get_text"):content = line.get_text()# print(content)# output = StringIO()# output.write(content)# content = output.getvalue()# output.close()# print(content)if content and content.replace(' ', '') != '\n':line_list.append(content)# print(content)pdf_list.append(line_list)# output.close()return pdf_listif __name__ == '__main__':# pdf目录src_dir = './pdf'# 生成的txt和json文件的保存目录tgt_dir = './text_and_json'# 批量转换batch_process(src_dir, tgt_dir)
http://www.hrbkazy.com/news/14148.html

相关文章:

  • excel做网页放进网站现在做网络推广好做吗
  • 做网站的前期准备关键词seo如何优化
  • 企业网站建设及维护费用外包公司为什么没人去
  • 淘宝联盟怎么样做网站网络平台建站
  • 北京外语网站开发公司深圳市seo上词多少钱
  • 做公司网站的广告免费发布信息平台
  • 网站乱码肇庆网站快速排名优化
  • webapi做网站石家庄seo管理
  • ih5做自适应网站怎样推广自己的商城
  • 网站后缀net网络推广网站电话
  • 响应式网站和平时网站的区别网络公司网站
  • animate.css网站淄博seo
  • 海淀区城乡建设委员会官方网站网盘资源
  • 如何做网站客户案例汕头搜索引擎优化服务
  • 老鬼seo网站seo优化免费
  • 如何通过做网站赚钱今日实时热点新闻事件
  • 汕尾网站设计关键词优化公司排名榜
  • 宁波信誉好品牌网站设计地址seopc流量排行榜企业
  • 做室内设计人喜欢的网站网络安全有名的培训学校
  • 付网站建设费如果做账百度一键优化
  • 网站网站建设企业深圳网站推广公司
  • 单页网站系统淘宝标题优化工具推荐
  • 哪个网站做批发中国十大教育培训机构有哪些
  • 盐城企业做网站多少钱推广方案模板
  • 有域名没有服务器怎么做网站上海培训机构排名榜
  • 兰州网站网站建设中国疫情今天最新消息
  • 和田地seo百度推广账户优化
  • 房地产网站模版广告竞价推广
  • 安卓android官网下载重庆网站优化公司
  • 个人网站建设流程如何自建网站