当前位置: 首页 > news >正文

苏州网站建设设计制作公司怎么样老铁外链

苏州网站建设设计制作公司怎么样,老铁外链,专业影视广告制作公司,乐清网站建设公司以下是 vllm serve 的常见参数说明以及它们的作用: 1. 基本参数 model_tag 说明:用于指定要加载的模型,可以是 Hugging Face 模型仓库中的模型名称,也可以是本地路径。示例:vllm serve "gpt-neo-2.7B"--co…

以下是 vllm serve 的常见参数说明以及它们的作用:


1. 基本参数

model_tag
  • 说明:用于指定要加载的模型,可以是 Hugging Face 模型仓库中的模型名称,也可以是本地路径。
  • 示例
    vllm serve "gpt-neo-2.7B"
    
--config CONFIG
  • 说明:允许从 YAML 配置文件加载参数。适合复杂配置。
  • 示例
    vllm serve "gpt-neo-2.7B" --config /path/to/config.yaml
    
--host HOST--port PORT
  • 说明:设置服务运行的主机地址和端口。
  • 默认值host=127.0.0.1port=8000
  • 示例
    vllm serve "gpt-neo-2.7B" --host 0.0.0.0 --port 8080
    

2. 模型加载与优化

--tensor-parallel-size
  • 说明:设置 Tensor 并行的数量(多 GPU 分布式推理)。
  • 示例
    --tensor-parallel-size 8
    
--cpu-offload-gb
  • 说明:允许将部分模型权重或中间结果卸载到 CPU 内存中,模拟 GPU 内存扩展。
  • 默认值0(禁用 CPU 卸载)。
  • 示例
    --cpu-offload-gb 128
    
--gpu-memory-utilization
  • 说明:指定 GPU 内存利用率,值为 0-1 的小数。
  • 默认值0.9
  • 示例
    --gpu-memory-utilization 0.8
    
--max-model-len
  • 说明:模型的最大上下文长度(序列长度)。
  • 示例
    --max-model-len 16384
    
--max-num-batched-tokens
  • 说明:每批次处理的最大 token 数量。适用于优化吞吐量。
  • 示例
    --max-num-batched-tokens 60000
    
--dtype
  • 说明:设置数据类型,通常用于控制权重和激活值的精度。
    • float32:32位浮点数(精确但消耗内存)。
    • float16:16位浮点数(推荐)。
    • bfloat16:16位浮点数(适合 NVIDIA A100 等设备)。
  • 示例
    --dtype float16
    

3. 日志与调试

--uvicorn-log-level
  • 说明:控制 uvicorn Web 服务器的日志级别。
  • 选项debug, info, warning, error, critical, trace
  • 示例
    --uvicorn-log-level debug
    
--disable-log-stats
  • 说明:禁用统计日志,减少性能开销。
  • 示例
    --disable-log-stats
    
--disable-log-requests
  • 说明:禁用请求的日志记录。
  • 示例
    --disable-log-requests
    

4. 分布式设置

--distributed-executor-backend
  • 说明:设置分布式推理的执行后端。
  • 选项ray, mp(多进程)
  • 默认值ray(如果安装了 Ray)
  • 示例
    --distributed-executor-backend ray
    
--pipeline-parallel-size
  • 说明:设置流水线并行的阶段数量。
  • 示例
    --pipeline-parallel-size 4
    

5. 前端与安全

--api-key
  • 说明:启用 API 访问控制,客户端需提供此密钥。
  • 示例
    --api-key my_secure_api_key
    
--ssl-keyfile--ssl-certfile
  • 说明:配置 HTTPS 证书,启用安全通信。
  • 示例
    --ssl-keyfile /path/to/keyfile.pem --ssl-certfile /path/to/certfile.pem
    
--disable-fastapi-docs
  • 说明:禁用 FastAPI 的 OpenAPI 文档(Swagger UI)。
  • 示例
    --disable-fastapi-docs
    

6. 调度与优化

--swap-space
  • 说明:每个 GPU 的 CPU 换页空间(GiB)。
  • 示例
    --swap-space 8
    
--max-num-seqs
  • 说明:每次迭代的最大序列数量,适合控制吞吐量。
  • 示例
    --max-num-seqs 16
    
--enable-prefix-caching
  • 说明:启用前缀缓存以减少重复计算。
  • 示例
    --enable-prefix-caching
    

7. 特殊用途参数

--quantization
  • 说明:设置量化方法,减少内存占用。
  • 选项
    • bitsandbytes:8位量化(推荐)。
    • fp8:FP8(需要支持 FP8 的设备)。
  • 示例
    --quantization bitsandbytes
    
--enable-lora
  • 说明:启用 LoRA(低秩适配器)功能。
  • 示例
    --enable-lora
    

示例命令

结合以上参数的一个完整示例:

vllm serve "defog/sqlcoder-70b-alpha" \--tensor-parallel-size 8 \--cpu-offload-gb 128 \--gpu-memory-utilization 0.9 \--max-model-len 16384 \--max-num-batched-tokens 60000 \--uvicorn-log-level debug

如需进一步调整,请参阅 vLLM 官方文档。

http://www.hrbkazy.com/news/9494.html

相关文章:

  • 网站被k今天头条新闻
  • 深圳最好的网站开发公司电话在线crm系统
  • 南京溧水城市建设集团网站跨境电商网站开发
  • 怎样做手机网站建设百度推广效果不好怎么办
  • 搜索引擎优化的工作流程是什么?seo排名工具
  • 佛山顺德专业做网站万网域名注册信息查询
  • 加强三农网站建设的意义短链接生成网址
  • 中小型企业建设一个网站大概需要多少钱郑州seo培训
  • 做网站后有人抢注品牌关键字开鲁视频
  • 抓好政府网站建设网络营销的五个发展阶段
  • 做西餐的网站海外黄冈网站推广
  • 51制作工厂网站新软件推广平台
  • wordpress 代码高亮中文seo百度快照优化公司
  • wordpress网站管理系统百度快速收录3元一条
  • 交友网站建设策划方案(2)seowhy培训
  • 织梦做淘宝客网站视频教程g3云推广
  • 低价做网站靠谱吗分享推广
  • 如何建设公司网站信息北京推广优化公司
  • 力博彩票网站开发新能源汽车公司
  • 三丰云免费虚拟主机博客网站seo
  • 上传的网站打不开怎么办交换友情链接的条件
  • 国外包装设计欣赏网站网站建设免费
  • 天津网站建设揭秘百度网站提交收录入口
  • 物流网站建设费用互联网广告推广好做吗
  • 在香港做网站需要什么软件下载百度网盘app最新版
  • 如何做基金公司网站广告代理
  • 做网站时怎样图片上传怎么才能让图片不变形_有什么插件吗百度平台商户电话号码
  • 做网站的p什么2003谷歌优化seo
  • 门户网站建设工作情况汇报湖北网站seo策划
  • 怎么做自己的网站卖东西seocms