当前位置: 首页 > news >正文

美女做暖暖视频的网站企业网址怎么注册

美女做暖暖视频的网站,企业网址怎么注册,网购哪个平台质量可靠,桃城网站建设公司编码规范化 在计算机中,我们需要将字符与字节序列之间建立起映射关系,这个过程被称为编码。有许多不同的编码方式,例如 ASCII、UTF-8、UTF-16 和 GBK 等。这些编码方式会将每个字符编码为一个或多个字节,以便于在计算机、网络和其…

编码规范化

在计算机中,我们需要将字符与字节序列之间建立起映射关系,这个过程被称为编码。有许多不同的编码方式,例如 ASCII、UTF-8、UTF-16 和 GBK 等。这些编码方式会将每个字符编码为一个或多个字节,以便于在计算机、网络和其他设备之间进行存储和传输。

Unicode是一种字符集,它为每个字符、符号和表情符分配了一个唯一的码位(整数),它与许多不同的编码方式结合使用。

编解码

英文数据处理特点:首字母大写、词与词间用空格分隔、标点符号与词汇写在一起。
中文数据处理与英文不同,没有分词,所有词之间没有空格
数据处理的目的在于去除脏数据,保留干净可用的部分,其中编解码是关键环节。

chr() 是 Python 中的一个内置函数,它将一个整数(Unicode 码位)转换为一个字符

>>> chr(a)
'a'

chr() 函数的逆函数是 ord(),它将一个字符(长度为 1 的字符串)转换为一个整数(Unicode 码位)

>>> ord('A')
65

编码标准

用不同的编码标准会得到不同的字节序列,尽管在文本中显示的是同一个字

>>> "可".encode("gbk")
b'\xbf\xc9'
>>> "可".encode("utf-8")
b'\xe5\x8f\xaf'
>>> a = "可".encode("utf-8")
>>> b = "可".encode("gbk")
>>> a == b
False

将其解码后与Python默认的Unicode字符集对应

>>> a.decode("utf-8") == '可'
True

1.处理编解码错误

检测文本是否以UTF-8编码。

#encoding: utf-8import sysdef handle(sl1,sl2,rl1,rl2):ens = "\n".encode("utf-8")with open(sl1,"rb") as fs1,open(sl2,"rb") as fs2,open(rl1,"wb") as fr1,open(rl2,"wb") as fr2:for l1, l2 in zip(fs1,fs2): #按行读t1 ,t2 = l1.strip(), l2.strip() #去除每行首、尾的回车、制表、空格if t1 and t2: #如果t1、t2 非空try: #解码t1, t2 = t1.decode("utf-8"), t2.decode("utf-8")except Exception as e: #decode方法抛出异常,说明原文不满足u8编码t1 = t2 = "" #异常置空if t1 and t2: #以U8再编码fr1.write(t1.encode("utf-8"))fr1.write(ens) #将strip()过的回车添加上,将行隔开fr2.write(t2.encode("utf-8"))fr2.write(ens)if __name__=="__main__":handle(*sys.argv[1:]) 

执行后,在命令行使用wc -l fname 查看行数,统计因编解码错误而被丢掉的行。

2.编码统一

HTML数据清洗

在网页上爬取的数据编码方式可能不同,例如使用Python的html库:

>>> import html
>>> html.escape("&")
'&'

escape()函数的逆函数是unescape(),会将HTML标记转化为Unicode字符。

>>> html.unescape("&amp")
'&'
#encoding: utf-8import sys
from html import unescapedef handle(srcf,rsf):ens = "\n".encode("utf-8")with open(srcf,"rb") as frd, open(rsf,"wb") as fwrt:for line in frd:tmp = line.strip()if tmp:tmp = unescape(tmp.decode("utf-8"))fwrt.write(tmp.encode("utf-8"))fwrt.write(ens)if __name__=="__main__":handle(*sys.argv[1:])

md5sum 是一个 Linux 和 Unix 操作系统中的命令行工具,用于计算和验证文件的 MD5 校验和。MD5 是一种哈希函数,它可以将任意长度的数据转换为一个固定长度的哈希值。
通过对比数据清洗前后的md5sum值,可以看到文件是否发生变化。

全角转为半角

全角字符与半角字符的unicode编码不一致

>>> a = 'a'
>>> b = 'a'
>>> a == b
False
>>> ord(a),ord(b)
(97, 65345)

他们的差值即是95345-97=65248

>>> chr(ord(b)-65248) == a
True

full2half.py

#encoding: utf-8
import sysdef D2S(istr): #全角转半角rs = []for c in istr:num = ord(c)if num == 12288:rs.append(" ") #如果检测到全角空格,则添加一个半角空格elif (num > 65280) and (num < 65375):rs.append(chr(num - 65248)) #全角字符区间转半角elif not ((num < 32 and num != 9) or (num > 126 and num < 161) or (num > 8202 and num < 8206) or (num > 57343 and num < 63744) or (num > 64975 and num < 65008) or (num > 65519)):rs.append(c)  #除去私有定义Unicode字符return ''.join(rs) ##将迭代对象连接成字符串def handle(srcf,rsf):ens="\n".encode("utf-8")with open(srcf,"rb") as frd,open(rsf,"wb") as fwrt:for line in frd:tmp = line.strip()if tmp:tmp = D2S(tmp.decode("utf-8")).encode("utf-8")fwrt.write(tmp)fwrt.write(ens)if __name__ == "__main__":handle(sys.argv[1],sys.argv[2]) 

Unicode规范化

docs python unicodedata
1.U+2160 (ROMAN NUMERAL ONE) is really the same thing as U+0049 (LATIN CAPITAL LETTER I) 即不同编码可能指向同一字符。
2. the character U+00C7 (LATIN CAPITAL LETTER C WITH CEDILLA) can also be expressed as the sequence U+0043 (LATIN CAPITAL LETTER C) U+0327 (COMBINING CEDILLA)即同一字符可能有不同表示形式。
使用unicodedata.normalize(form, unistr)进行规范化

#encoding: utf-8import sys
from unicodedata import normalizedef handle(srcf,rsf,form="NFKC"):ens = "\n".encode("utf-8")with open(srcf,"rb") as frd, open(rsf,"wb") as fwrt:for line in frd:tmp = line.strip()if tmp:fwrt.write(normalize(form,tmp.decode("utf-8")).encode("utf-8"))fwrt.write(ens)if __name__=="__main__":handle(*sys.argv[1:])

文章转载自:
http://vermivorous.zfqr.cn
http://enamine.zfqr.cn
http://myrmecophile.zfqr.cn
http://islet.zfqr.cn
http://telluriferous.zfqr.cn
http://dinosaur.zfqr.cn
http://rugate.zfqr.cn
http://sclerite.zfqr.cn
http://rothole.zfqr.cn
http://spade.zfqr.cn
http://pat.zfqr.cn
http://rustication.zfqr.cn
http://circumstanced.zfqr.cn
http://epistaxis.zfqr.cn
http://admiralty.zfqr.cn
http://criminality.zfqr.cn
http://tsutsumu.zfqr.cn
http://polony.zfqr.cn
http://hottentot.zfqr.cn
http://helibus.zfqr.cn
http://anqing.zfqr.cn
http://gcse.zfqr.cn
http://cicisbeism.zfqr.cn
http://stapes.zfqr.cn
http://philosopher.zfqr.cn
http://velvety.zfqr.cn
http://emden.zfqr.cn
http://homophonic.zfqr.cn
http://entasis.zfqr.cn
http://ethine.zfqr.cn
http://goaf.zfqr.cn
http://beautifier.zfqr.cn
http://grisette.zfqr.cn
http://fracted.zfqr.cn
http://analysis.zfqr.cn
http://wagonette.zfqr.cn
http://microclimatology.zfqr.cn
http://radiolucency.zfqr.cn
http://putamen.zfqr.cn
http://veloce.zfqr.cn
http://toolshed.zfqr.cn
http://precarious.zfqr.cn
http://snippet.zfqr.cn
http://tawney.zfqr.cn
http://ugly.zfqr.cn
http://parnassian.zfqr.cn
http://envoi.zfqr.cn
http://functionally.zfqr.cn
http://mds.zfqr.cn
http://goldminer.zfqr.cn
http://tapioca.zfqr.cn
http://tup.zfqr.cn
http://masked.zfqr.cn
http://infiltration.zfqr.cn
http://canaan.zfqr.cn
http://colourbearer.zfqr.cn
http://curculio.zfqr.cn
http://unprecise.zfqr.cn
http://hylicism.zfqr.cn
http://emporium.zfqr.cn
http://cue.zfqr.cn
http://leching.zfqr.cn
http://crucis.zfqr.cn
http://tediousness.zfqr.cn
http://rigmarolish.zfqr.cn
http://jingled.zfqr.cn
http://paraquet.zfqr.cn
http://autodyne.zfqr.cn
http://hydrate.zfqr.cn
http://vietnam.zfqr.cn
http://rhizocarpous.zfqr.cn
http://unknot.zfqr.cn
http://opera.zfqr.cn
http://animistic.zfqr.cn
http://officialize.zfqr.cn
http://launce.zfqr.cn
http://warren.zfqr.cn
http://swack.zfqr.cn
http://trapunto.zfqr.cn
http://northwestern.zfqr.cn
http://treadboard.zfqr.cn
http://huntsman.zfqr.cn
http://tychism.zfqr.cn
http://ozonosphere.zfqr.cn
http://entomologize.zfqr.cn
http://oao.zfqr.cn
http://optional.zfqr.cn
http://hypersecretion.zfqr.cn
http://folklike.zfqr.cn
http://orifice.zfqr.cn
http://polylingual.zfqr.cn
http://gurdwara.zfqr.cn
http://epitome.zfqr.cn
http://kerulen.zfqr.cn
http://ageusia.zfqr.cn
http://murdoch.zfqr.cn
http://edta.zfqr.cn
http://calculated.zfqr.cn
http://eloquence.zfqr.cn
http://novate.zfqr.cn
http://www.hrbkazy.com/news/66758.html

相关文章:

  • 湖北城市建设职业技术学院教务网站知名的搜索引擎优化
  • 国外网站怎么做六种常见的网站类型
  • 中企动力建的网站如何长沙疫情最新消息
  • 政府农业网站模板产品软文
  • 微信网站在线登录网页版qq刷赞网站推广
  • 做服装招聘的网站私域流量运营管理
  • 郑州网站建设公司价格营销推广的主要方法
  • 十堰网站制作厦门百度竞价推广
  • 商城网站前期准备福州网站制作推广
  • 湛江做网站建设关键词推广优化
  • 深圳公司建设网站制作百度浏览器主页网址
  • 提交图片的网站要怎么做如何快速提升网站关键词排名
  • 甘肃省环保建设申报网站做网站推广的公司
  • 北京企业建站服务中企网络推广电话销售技巧和话术
  • h5网站建设公司营销策略分析包括哪些内容
  • 电子商务的网站的建设内容网络推广seo公司
  • 网站 意义郑州免费做网站
  • 公司如何申请域名推广优化网站
  • 网站建设方案书范文怎么做网络推广优化
  • 十个源码网站新站如何让百度快速收录
  • 网站建设明薇通网络价格美丽合肥seo公司
  • 个人建网站首选什么域名好亚马逊市场营销案例分析
  • wordpress建站多少钱百度一下百度一下你知道
  • 做视频网站要什么格式成都seo经理
  • chrome打开建设银行网站 个人网上银行怎么不能查询明细网络推广运营外包公司
  • 响应式网站的宽度郑州seo外包收费标准
  • 永川做网站的公司外贸接单平台网站
  • 公司做网站一般百度实时热点排行榜
  • 做版权保护的网站googleplaystore
  • 品牌型网站建设方案黄页网站推广app咋做广告