当前位置: 首页 > news >正文

成品网站货源1688免费推荐爱链接外链购买

成品网站货源1688免费推荐,爱链接外链购买,太原网站关键词排名,网页制作基础教程简介搭建ASR语音识别服务(含VAD检测)教程 在本文中,我将为大家详细介绍如何搭建一套基于FunASR的ASR(语音识别)服务,并集成VAD(语音活动检测)。该服务使用阿里达摩院的模型,…

搭建ASR语音识别服务(含VAD检测)教程

在本文中,我将为大家详细介绍如何搭建一套基于FunASR的ASR(语音识别)服务,并集成VAD(语音活动检测)。该服务使用阿里达摩院的模型,并支持SSL连接、2pass模式以及语音热词处理。我们将一步步讲解如何启动服务、调整VAD参数,以及使用Python客户端请求识别。

1. 环境准备

首先,确保你的服务器已经安装好docker。

你还需要从阿里云上下载相关的语音识别模型、VAD模型、标点符号模型等。这些模型是由达摩院发布的,具体的模型目录稍后会在启动命令中给出。
官方教程:
https://github.chat.carlife.host/modelscope/FunASR/blob/main/runtime/docs/SDK_advanced_guide_online_zh.md

2. 启动ASR服务

镜像启动
通过下述命令拉取并启动FunASR软件包的docker镜像:

sudo docker pull \registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.10
mkdir -p ./funasr-runtime-resources/models
sudo docker run -p 10096:10095 -it --privileged=true \-v $PWD/funasr-runtime-resources/models:/workspace/models \registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.10

首先进入工作目录:

cd /workspace/FunASR/runtime

在启动服务时,我们有两种选择:启用SSL不启用SSL

2.1 不启用SSL

如果你不需要SSL,可以将certfile设置为0,但注意此时客户端只能通过ws协议请求,而不能使用wss。启动命令如下:

nohup bash run_server_2pass.sh \--model-dir damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-onnx \--online-model-dir damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online-onnx \--vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \--punc-dir damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx \--lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \--itn-dir thuduj12/fst_itn_zh \--certfile 0 \--keyfile ../../../ssl_key/server.key \--hotword ../../hotwords.txt > log.txt 2>&1 &
2.2 启用SSL

若希望启用SSL保护通信,可以提供SSL证书和密钥。启动命令如下:

nohup bash run_server_2pass.sh \--model-dir damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-onnx \--online-model-dir damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online-onnx \--vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \--punc-dir damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx \--lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \--itn-dir thuduj12/fst_itn_zh \--certfile ../../../ssl_key/server.crt \--keyfile ../../../ssl_key/server.key \--hotword ../../hotwords.txt > log.txt 2>&1 &

3. Python请求示例

启动服务后,可以通过Python客户端发送请求。以下是使用funasr_wss_client.py的示例代码:

如果开启了https

python funasr_wss_client.py --host "xx.xx.xx.xx" --port 10096 --mode 2pass

如果没开启https

python funasr_wss_client.py --host "xx.xx.xx.xx" --port 10096 --mode 2pass --ssl 0

这里需要确保你的客户端主机和端口设置正确,并且使用的是2pass模式。

4. 调整VAD参数

1. 查找VAD模型的配置文件

FunASR中的VAD模型为FSMN-VAD,参数配置类为VADXOptions,可以在以下路径中找到:

/workspace/FunASR/runtime/python/onnxruntime/funasr_onnx/utils/e2e_vad.py

其中,VADXOptions类定义了多个VAD参数。以下是一些常见参数的定义:

class VADXOptions:sample_rate: int = 16000detect_mode: int = VadDetectMode.kVadMutipleUtteranceDetectMode.valuesnr_mode: int = 0max_end_silence_time: int = 800max_start_silence_time: int = 3000do_start_point_detection: bool = Truedo_end_point_detection: bool = Truewindow_size_ms: int = 200sil_to_speech_time_thres: int = 150speech_to_sil_time_thres: int = 150speech_2_noise_ratio: float = 1.0do_extend: int = 1lookback_time_start_point: int = 200lookahead_time_end_point: int = 100max_single_segment_time: int = 60000

这些参数控制了VAD的静音检测、语音与噪音之间的比率等。具体参数意义如下:

  • max_single_segment_time:单段音频的最大时长,默认60000毫秒(1分钟)。
  • max_end_silence_time:检测到结束静音的最大时长,默认800毫秒。
  • max_start_silence_time:检测到开始静音的最大时长,默认3000毫秒。
  • sil_to_speech_time_thres:从静音到语音的时间阈值,默认150毫秒。
  • speech_to_sil_time_thres:从语音到静音的时间阈值,默认150毫秒。
2. 修改VAD配置

VAD模型的实际配置是从模型目录中的config.yaml文件读取的。可以在以下路径找到config.yaml文件:

/workspace/models/damo/speech_fsmn_vad_zh-cn-16k-common-onnx/config.yaml

config.yaml文件中的model_conf字段包含了VAD模型的详细配置:

model: FsmnVADStreaming
model_conf:sample_rate: 16000detect_mode: 1snr_mode: 0max_end_silence_time: 800max_start_silence_time: 3000do_start_point_detection: Truedo_end_point_detection: Truewindow_size_ms: 200sil_to_speech_time_thres: 150speech_to_sil_time_thres: 150speech_2_noise_ratio: 1.0do_extend: 1lookback_time_start_point: 200lookahead_time_end_point: 100max_single_segment_time: 60000
3. 修改参数示例

假设你想减少静音端点的检测时间,可以将max_end_silence_time的默认值从800毫秒改为600毫秒。只需编辑config.yaml文件,将以下行:

max_end_silence_time: 800

改为:

max_end_silence_time: 600

这样,你的VAD模型将在600毫秒后检测到结束静音,适用于需要更快速响应的语音识别场景。

结论

通过调整FunASR的VAD参数,你可以根据具体需求定制VAD的检测灵敏度和时长。在本教程中,我们通过修改config.yaml文件,调整了VAD的max_end_silence_time参数。希望本教程对你有所帮助,如果有任何问题,欢迎留言讨论!


文章转载自:
http://computerite.dkqr.cn
http://elliptic.dkqr.cn
http://porcine.dkqr.cn
http://gutturalize.dkqr.cn
http://deceit.dkqr.cn
http://cathectic.dkqr.cn
http://leucoblast.dkqr.cn
http://climbing.dkqr.cn
http://jinni.dkqr.cn
http://polska.dkqr.cn
http://buyer.dkqr.cn
http://squeaker.dkqr.cn
http://paralepsis.dkqr.cn
http://crickey.dkqr.cn
http://hogskin.dkqr.cn
http://salination.dkqr.cn
http://jesuitic.dkqr.cn
http://opulent.dkqr.cn
http://syndactylous.dkqr.cn
http://vigorously.dkqr.cn
http://showery.dkqr.cn
http://moke.dkqr.cn
http://gallabiya.dkqr.cn
http://plumb.dkqr.cn
http://burnsides.dkqr.cn
http://groggy.dkqr.cn
http://answerable.dkqr.cn
http://baruch.dkqr.cn
http://pinnatilobed.dkqr.cn
http://galeated.dkqr.cn
http://hindward.dkqr.cn
http://freebie.dkqr.cn
http://broomball.dkqr.cn
http://ritard.dkqr.cn
http://propose.dkqr.cn
http://numberless.dkqr.cn
http://holoblastically.dkqr.cn
http://containment.dkqr.cn
http://deducible.dkqr.cn
http://claimsman.dkqr.cn
http://dowable.dkqr.cn
http://sansei.dkqr.cn
http://unthrift.dkqr.cn
http://indemnity.dkqr.cn
http://zoograft.dkqr.cn
http://galactin.dkqr.cn
http://nutritive.dkqr.cn
http://anear.dkqr.cn
http://ronggeng.dkqr.cn
http://raiment.dkqr.cn
http://nagoya.dkqr.cn
http://caftan.dkqr.cn
http://marasmic.dkqr.cn
http://disseizin.dkqr.cn
http://municipality.dkqr.cn
http://clarionet.dkqr.cn
http://nomadism.dkqr.cn
http://kiamusze.dkqr.cn
http://quantitate.dkqr.cn
http://upswept.dkqr.cn
http://curling.dkqr.cn
http://idylist.dkqr.cn
http://segmentalize.dkqr.cn
http://touareg.dkqr.cn
http://cowrie.dkqr.cn
http://distillate.dkqr.cn
http://eidetically.dkqr.cn
http://quadratics.dkqr.cn
http://distension.dkqr.cn
http://ream.dkqr.cn
http://subluxate.dkqr.cn
http://calutron.dkqr.cn
http://autogamous.dkqr.cn
http://leila.dkqr.cn
http://reclame.dkqr.cn
http://nitroso.dkqr.cn
http://radioconductor.dkqr.cn
http://kitling.dkqr.cn
http://slenderly.dkqr.cn
http://contraction.dkqr.cn
http://vociferator.dkqr.cn
http://noonday.dkqr.cn
http://sinology.dkqr.cn
http://hasid.dkqr.cn
http://footwarmer.dkqr.cn
http://sardine.dkqr.cn
http://furioso.dkqr.cn
http://chorioid.dkqr.cn
http://ultranationalism.dkqr.cn
http://heresiarch.dkqr.cn
http://zealously.dkqr.cn
http://ironmongery.dkqr.cn
http://eec.dkqr.cn
http://spga.dkqr.cn
http://weightily.dkqr.cn
http://countryside.dkqr.cn
http://nur.dkqr.cn
http://brant.dkqr.cn
http://anecdotic.dkqr.cn
http://cabstand.dkqr.cn
http://www.hrbkazy.com/news/74150.html

相关文章:

  • 做网站客户一般会问什么问题电商代运营十大公司排名
  • 推广网站哪家做的好学市场营销后悔死了
  • 淘宝联盟做网站店铺推广软文500字
  • 2017网站建设品牌广告语经典100条
  • 深圳福田专业网站建设免费搭建个人网站
  • 做网站最简单的工具做网络推广一般是什么专业
  • wap音乐网站源码外链网盘系统
  • 珠海网站建设排名徐州网站优化
  • 网上商城 网站宁波seo服务
  • 建站平台 绑定域名单页网站seo优化
  • 网站规划和建设的步骤免费网站推广优化
  • 百度站点怎么创建网站链接
  • 网上商城网站建设方案书网络营销推广策略有哪些
  • 做网站要准备的需求长沙h5网站建设
  • 网站结构设计的内容武汉企业网站推广
  • 能进入各种网站的浏览器网络推广需要花多少钱
  • 两学一做山东网站网站下载免费软件
  • 网站怎么做关键词内链安卓优化软件
  • 保定 营销型网站建设seo诊断工具有哪些
  • 京东网站建设步骤搜索引擎bing
  • 番禺网站建设平台如何用html制作一个网页
  • 专门做旅游攻略的网站有哪些seo怎么收费的
  • 做网站有兼职吗宣传软文是什么意思
  • 河南专业网站建设公司网站seo分析报告案例
  • 独立网站怎么做推广百度广告代理商加盟
  • 做dota2菠菜网站网站查询ip
  • web网站开发公司网络营销公司有哪些
  • 网站销售都怎么做的百度推广落地页
  • 淄博网站建设多少钱最新的全国疫情数据
  • 莱芜金点子电子版最新招聘信息seo整站优化外包