当前位置: 首页 > news >正文

建设网上银行网站写一篇软文推广自己的学校

建设网上银行网站,写一篇软文推广自己的学校,上海网站建设 知名觉,学做美食网站文章目录 一、前言二、实现方法1. 目录结构2. 代码 一、前言 此方法只能转文本格式的pdf,如果是图片格式的pdf需要用到ocr包,以后如果有这方面需求再加这个方法 二、实现方法 1. 目录结构 2. 代码 pdf2txt.py 代码如下 #!/usr/bin/env python # -*- …

文章目录

  • 一、前言
  • 二、实现方法
    • 1. 目录结构
    • 2. 代码


一、前言

此方法只能转文本格式的pdf,如果是图片格式的pdf需要用到ocr包,以后如果有这方面需求再加这个方法


二、实现方法

1. 目录结构

在这里插入图片描述


2. 代码

pdf2txt.py 代码如下

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import json
import osfrom pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage, PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParamsdef batch_process(src_dir, tgt_dir):'''批处理:return:'''for pdf_name in os.listdir(src_dir):pdf_path = os.path.join(src_dir, pdf_name)text_path = os.path.join(tgt_dir, f'{os.path.splitext(pdf_name)[0]}.txt')json_path = os.path.join(tgt_dir, f'{os.path.splitext(pdf_name)[0]}.json')pdf_utils = PDFUtils()pdf_list = pdf_utils.pdf2list(pdf_path)# pdf2txtwith open(text_path, mode='w', encoding='utf-8') as f:f.write(''.join([''.join(page) for page in pdf_list]))# pdf2jsonwith open(json_path, mode='w', encoding='utf-8') as f:f.write(json.dumps(pdf_list, ensure_ascii=False))class PDFUtils():def __init__(self):passdef pdf2list(self, path):pdf_list = []   # 二维数组,一维放页,二维放行with open(path, 'rb') as f:praser = PDFParser(f)doc = PDFDocument(praser)if not doc.is_extractable:raise PDFTextExtractionNotAllowedpdfrm = PDFResourceManager()laparams = LAParams()device = PDFPageAggregator(pdfrm, laparams=laparams)interpreter = PDFPageInterpreter(pdfrm, device)for page_idx, page in enumerate(PDFPage.create_pages(doc)):line_list = []   # 保存每行数据# print(page_idx)interpreter.process_page(page)layout = device.get_result()for line_idx, line in enumerate(layout):# print(line_idx)if hasattr(line, "get_text"):content = line.get_text()# print(content)# output = StringIO()# output.write(content)# content = output.getvalue()# output.close()# print(content)if content and content.replace(' ', '') != '\n':line_list.append(content)# print(content)pdf_list.append(line_list)# output.close()return pdf_listif __name__ == '__main__':# pdf目录src_dir = './pdf'# 生成的txt和json文件的保存目录tgt_dir = './text_and_json'# 批量转换batch_process(src_dir, tgt_dir)
http://www.hrbkazy.com/news/6496.html

相关文章:

  • 单位网站建设收费标准网络广告策划
  • 网站开发的社会背景抖音推广
  • 网站为什么做301今日头条新闻最全新消息
  • 高校门户网站建设方案长沙seo研究中心
  • 设计本科手机系统优化
  • 帝国网站管理系统教程seo就业指导
  • 扬中市平台公司网站优化师
  • 做的好的电商网站项目从哪里找网络推广公司
  • 怎么做提卡网站如何做网络宣传推广
  • 聊城做网站的公司流程汕头seo推广外包
  • 医疗网站建设中心外贸接单平台网站
  • web购物网站模板下载重庆关键词搜索排名
  • 建设和交通局网站线上营销工具
  • 国家标准下载网免费seo还有哪些方面的优化
  • 进入兔展网站做PPt网站推广软件有哪些
  • 可以玩h5的网站关键词优化难度查询
  • seo排名资源搜索引擎优化教材答案
  • 选择网站建设公司应该注意什么手机如何建网站
  • 成都网站制作建设俄罗斯搜索引擎浏览器官网入口
  • 个人做视频网站烧钱市场营销策划案的范文
  • 担路网做网站多少钱百度百家号注册
  • 威海美容网站建设百度直播间
  • 2017湖北建设教育协会网站优化网站怎么做
  • 把自己做的动画传到哪个网站上品牌推广的概念
  • 合肥专业做网站的公司郑州网站优化软件
  • wordpress 鼠标悬停成都网站优化平台
  • 县城做信息网站提升seo排名平台
  • 宝塔搭建wordpress大连百度seo
  • 猪八戒做网站河南网站关键词优化代理
  • 罗源做网站的公司模板网站好还是自助建站好