当前位置: 首页 > news >正文

武汉网站制作开发宁波网站推广优化外包

武汉网站制作开发,宁波网站推广优化外包,长沙网站制作公司,页面系统升级维护中提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 1.PaddleOCR环境准备 2.PaddleNLP环境准备 3.使用示例 前言 三方OCR服务价格普遍不便宜,随着公司业务量的增长,这部分成本逐渐变得难以…

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

前言

1.PaddleOCR环境准备

2.PaddleNLP环境准备

3.使用示例


前言

三方OCR服务价格普遍不便宜,随着公司业务量的增长,这部分成本逐渐变得难以忽视,因此内部评估后决定自行实现。


一、Paddle是什么?

示例:Paddle是国内的一套开源的深度学习框架,发展至目前,已经提供了许多无需复杂参数即可使用的工具库,如 
PaddleOCR,PaddleNLP 等等。

二、使用步骤

1.PaddleOCR环境准备

注意:以下内容将以win系统为例,因为我是在win10系统上做开发的,mac没用过,不懂。

不管你是否已经安装python环境,我仍建议使用Anaconda环境,因为在人工智能领域conda相当好用。

镜像地址:Index of /anaconda/archive/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror

安装完成后,打开Anaconda控制台:

通常在左下角的:开始 -> Anaconda3 -> Anaconda Prompt启动控制台

输入如下命令,创建一个新的虚拟环境:

conda create --name paddle_env python=3.8 --channel https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

以上命令是默认使用了python3.8的,如果你需要其他版本,可以自行修改。

虚拟环境创建完成后,可以通过如下命令激活环境,并确定无误:

# 激活paddle_env环境
conda activate paddle_env
# 查看当前python的位置
where python

然后还需要安装Paddle的核心框架:

如果你的电脑有NVIDIA显卡,可以先查一查你的CUDA版本是多少:

CUDA版本查看指南:轻松掌握你的GPU性能_cuda编译器版本和运行时版本-CSDN博客

然后去Paddle官网选择对应的选项,获取对应的安装命令:

开始使用_飞桨-源于产业实践的开源深度学习平台

以纯CPU为例,执行如下安装命令:

python -m pip install paddlepaddle==2.6.1 -i https://pypi.tuna.tsinghua.edu.cn/simple

等核心框架安装好了,再安装whl包:

pip install "paddleocr>=2.0.1"

至此,PaddleOCR部署完成。


2.PaddleNLP环境准备

PaddleNLP的部署相对比较简单,只需要通过以下pip直接安装即可:

pip install --upgrade paddlenlp

3.使用示例

先在你的代码中引入paddleocr和paddlenlp两个库:

from paddleocr import PaddleOCR
from paddlenlp import Taskflow

然后获取一个PaddleOCR和一个Taskflow对象:

# 获取ocr对象
ocr = PaddleOCR(use_angle_cls=True, lang="ch", use_gpu=False, use_mp=True)
# 获取taskflow对象
ie = Taskflow('information_extraction', schema=schema)

如果你希望使用自己训练的模型,可以传入参数:

# 指定检测模型,识别模型和方向分类模型的路径
det_model_dir = '.\\det_model'
rec_model_dir = '.\\rec_model'
cls_model_dir = '.\\cls_model'
# 传入参数
PaddleOCR(det_model_dir=det_model_dir, rec_model_dir=rec_model_dir, cls_model_dir=cls_model_dir)

如果没有需要指定的模型,直接不传这几个参就行,官方在源码文件information_extraction.py里的resource_files_urls对象中其实已经指定了默认的模型。

示例代码:

# Paddleocr目前支持的多语言语种可以通过修改lang参数进行切换
# 例如`ch`, `en`, `fr`, `german`, `korean`, `japan`
ocr = PaddleOCR(use_angle_cls=True, lang="ch")
allStr = ""
img_path = './imgs/11.jpg'
result = ocr.ocr(img_path, cls=True)
for idx in range(len(result)):res = result[idx]for line in res:print(line)str = line[1][0]if str != '':allStr = allStr + Str

假设传入的是身份证,经过解析后的allStr就会变成类似如下的字符串(标点符号,空格等特殊符号需要你自行处理):

姓名侯小珂性别女民族汉出生1999年x月x日住址xx市xx区xx路1号2栋3号公民身份号码110129xxxxxxxxxxxx中华人民共和国居民身份证签发机关xx市公安局有效期限2018071120280711

接下来你要做的就是把这个字符串交给NLP模型进行信息抽取。当然,你说用正则匹配也行,确实没毛病,例如身份证号码,直接用正则匹配就可以了。但是,假如你需要获取住址这种没有明显特征的,你如何正则匹配呢?

NLP模型就能解决这个问题。

使用如下代码,告诉模型我需要在这段文本中抽取什么信息即可:

data = {}
schema = ["姓名", "民族", "性别", "出生", "住址", "签发机关", "有效期限", "公民身份号码"]
ie = Taskflow('information_extraction', schema=schema)
res = ie(allStr)
for key in schema:data[key] = res[0][key][0]['text']
print(data)

结果如下:

	"data": {"姓名": "侯小珂","民族": "汉","性别": "女","出生": "1999年x月x日","住址": "xx市xx区xx路1号2栋3号","签发机关": "xx市公安局","有效期限": "2018071120280711","公民身份号码": "110129xxxxxxxxxxxx"}

感谢各位阅读!


觉得这篇文章有用的朋友可以给我点个赞,收藏一下,尤其是修炼搬山诀的道友,你搬就搬吧好歹给哥们点点赞。

http://www.hrbkazy.com/news/55320.html

相关文章:

  • 赤峰企业网站建设广东疫情最新消息今天又封了
  • 做网站什么主题比较好友情链接交换系统
  • 苏州h5建站中国新闻最新消息
  • 网站建设公司fjfzwl在线生成个人网站源码
  • 工商网查询企业信息查询系统广州网站seo地址
  • 西安哪家做网站最好推广引流吸引人的文案
  • 北京网站开发网站开发公司沈阳网站建设制作公司
  • wordpress+众筹网站模板seo投放营销
  • 怎样在百度免费做网站网络公关公司
  • 俞润装饰做哪几个网站软文广告例子
  • 网站开发和嵌入式开发哪个宁波seo推广推荐公司
  • 做套现网站西安做网站
  • 机箱做的网站主机怎么查看ftp网络营销常见术语
  • 国内真人做爰视频直播网站磁力搜索器 磁力猫
  • 经常做ppt的网站歌尔股份砍单
  • 域名注册平台哪个好百度seo灰色词排名代发
  • dreamweaver网页成品北京seo网站推广
  • 开源模板网站近期热点新闻事件
  • 店面设计案例分析平台优化
  • dw如何做网站登陆验证抖音权重查询工具
  • 如何建立一个网站平台赌博南京网站seo
  • 有教做衣服的网站吗google play服务
  • 做外贸的网站有哪几个市场营销策略有哪4种
  • 泰安公司网站开发b2b模式的电商平台有哪些
  • 临沂做商城网站深圳白帽优化
  • 凯叔讲故事网站谁做的中国广告网
  • 在线网站软件免费下载安装初学seo网站推广需要怎么做
  • 外贸网站模板下载seo关键词搜索和优化
  • 高级网站开发培训价格网络关键词
  • 自我介绍网页制作htmlwindows优化大师怎么下载