当前位置: 首页 > news >正文

重庆微信网站制作注册一个域名需要多少钱

重庆微信网站制作,注册一个域名需要多少钱,高端品牌网站设计公司,学生版 建设网站软件下载一、微软Word历史、背景: Word 的特异功能就是把那些应该写成简单的 TXT 或 PDF 格式的文件,变成了既大又慢且难以打开的怪兽,它们经常在系统切换和版本切换中出现格式不兼容,而且因为某些原因在文件内容已经定稿后仍处于可编辑的…

一、微软Word历史、背景:

Word 的特异功能就是把那些应该写成简单的 TXT 或 PDF 格式的文件,变成了既大又慢且难以打开的怪兽,它们经常在系统切换和版本切换中出现格式不兼容,而且因为某些原因在文件内容已经定稿后仍处于可编辑的状态。Word 文件从未打算让人频繁传递。不过它们在一些网站上很流行,包括重要的文档、信息,甚至图表和多媒体;总之,那些内容都应该用 HTML代替。

大约在 2008 年以前,微软 Office 产品中 Word 用 .doc 文件格式。这种二进制格式很难读
取,而且能够读取 word 格式的软件很少。

为了跟上时代,让自己的软件能够符合主流软件的标准,微软决定使用 Open Office 的类 XML 格式标准,此后新版 Word 文件才与其他文字处理软件兼容,这个格式就是 .docx。

Python 对 这 种Open Office 和 Microsoft Office 都 在 使 用 的 .docx 格式 的 支 持 还 不 够 好。 虽 然 有 一 个 python-docx 库,但是只支持创建新文档和读取一些基本的文件数据,如文件大小和文件标题,不支持正文读取。

想读取 Microsoft Office 文件的正文内容,我们需要自己动手找方法。

二、从文件读取XML:

from zipfile import ZipFile
from io import BytesIO
from bs4 import BeautifulSoup
wordFile = open('/home/lijiang/Excel人员数据/码农必会词汇表.docx', 'rb').read()
wordFile = BytesIO(wordFile)
document = ZipFile(wordFile)
xml_content = document.read('word/document.xml')
print(xml_content.decode('utf-8'))

这段代码将Word文档读成二进制文件对象,再用标准库zipfile解压,再读取这个解压文件,这样就成为XML格式了。运行的输出结果包含了大量信息,但是被隐藏在XML格式里面。观察后会看到文档的正文内容都包含在<w:t>标签里面。这样就容易处理了。

三、用BeautifulSoup处理正文内容的XML标签:

from zipfile import ZipFile
from io import BytesIO
from bs4 import BeautifulSoupwordFile = open('/home/lijiang/Excel人员数据/码农必会词汇表.docx', 'rb').read()
wordFile = BytesIO(wordFile)
document = ZipFile(wordFile)
xml_content = document.read('word/document.xml')wordObj = BeautifulSoup(xml_content.decode('utf-8'), features="lxml")
textStr = wordObj.findAll('w:t')for textElem in textStr:
print(textElem.text)

为了以XML格式解析这个文档,需要在BeautifulSoup构造方法中指定关键字参数features='lxml'。word对象的findAll方法将带标签<w:t>的正文内容返回了一个列表。遍历此列表时,引用列表元素textElem的text属性,就去除了所有七七八八的标签,只剩下纯粹的正文内容了。也可以看到word是如何对文字进行断行处理的。

http://www.hrbkazy.com/news/16672.html

相关文章:

  • 慈溪网站制作哪家最好搜索引擎广告投放
  • 建设银行注册网站名咋设置今天的新闻 最新消息
  • 开发工具里的选项都是灰色的淘宝seo关键词的获取方法有哪些
  • 做教程网站如何查用户搜索app 推广
  • 阿里云上可以做网站吗今日头条站长平台
  • 怎么做网站和服务器吗社群营销策略有哪些
  • 做本地的门户网站百度指数查询手机版app
  • 郑州东区网站建设百度搜首页
  • 营销型企业网站开发什么是营销渠道
  • 企业网站制作设计网络公司推广方案
  • 建个视频网站多少钱百度竞价排名价格
  • 移动端网站开发用的是java吗互联网产品推广
  • 做旅游那些网站好搜索量用什么工具查询
  • 北京建网站定制价格吉林seo管理平台
  • 济南网站建设公司有哪些网页制作app
  • 辽宁建网站miy188coo免费入口
  • 织梦网站优化百度收录推广
  • 阿里巴巴国际站操盘官认证考试博客网站登录
  • 做淘宝客必须建网站吗营销咨询
  • 网站建设7个基本流程网站如何赚钱
  • 青岛网站互联网公司大数据技术主要学什么
  • 在本地怎么做网站外链网盘系统
  • 手机网站一般宽度做多大的alexa全球网站排名分析
  • 网站域名跳转怎么做网页设计与制作案例教程
  • 监控安防的网站怎么做微信营销的功能
  • 商丘幼儿园网站建设策划方案百度收录提交网站后多久收录
  • 盐城网站开发建设百度搜索数据统计
  • 什么做网站的公司好安徽seo优化规则
  • 以前做弹幕现在的电影网站网络营销策略论文
  • 电子商务网站建设侧重点宁波网站建设的公司