当前位置: 首页 > news >正文

满洲里网站建设今天重大国际新闻

满洲里网站建设,今天重大国际新闻,武夷山景区网站建设特点,flash网站整站下载OpenAI ChatGPT o1 背后的关键技术Test-time Compute Scaling,Huggingface实现并开源了! Hugging Face 团队发布了一篇关于“开源模型中的推理阶段计算扩展”(Test-time Compute Scaling) 的研究文章。Hugging Face 团队通过复现…

OpenAI ChatGPT o1 背后的关键技术Test-time Compute Scaling,Huggingface实现并开源了!

Hugging Face 团队发布了一篇关于“开源模型中的推理阶段计算扩展”(Test-time Compute Scaling) 的研究文章。Hugging Face 团队通过复现 DeepMind 等研究成果,通过测试时计算扩展(test-time compute scaling)来提升小模型的性能,使其在某些情况下超越更大规模的模型。这种方法不依赖于更大的预训练预算,而是通过动态推理策略,让模型在更难的问题上“思考更长时间”。

. 关键技术

  • 计算最优扩展(compute-optimal scaling):通过复刻DeepMind的技巧来提升测试时开放模型的数学能力。
  • 多样性验证器树搜索 (DVTS):提高了多样性并提供了更好的性能,特别是在测试时计算预算较大的情况下。
  • 搜索和学习:一个轻量级工具包,用于使用LLM实现搜索策略,并使用vLLM实现速度提升。

实验结果:在MATH-500基准测试中,1B和3B的Llama Instruct模型在给定足够的“思考时间”后,性能超越了更大的8B、70B模型。

基于验证器的搜索方法

直接看下面的图,快速理解:
在这里插入图片描述
这张图示意了三种搜索方法:
1、Best-of-N:让LLM生成N个候选答案,用频率的方法,就是选择出现次数最多的答案。使用奖励模型,则是强调答案质量而非频率。通过奖励模型,为每个候选答案分配分数,然后选择奖励最高的答案。文章中提到的一种变体是:汇总所有相同响应的得分,通过对相同响应的回答加权求和选择总得分最高的回答。
2、Beam Search:一种探索解决方案空间的系统搜索方法,通常与过程奖励模型 (PRM) 结合使用,以优化问题解决中间步骤的采样和评估。与对最终答案产生单一分数的传统奖励模型不同,PRM 会提供一系列分数,其中推理过程的每个步骤都有一个分数。这种细粒度反馈能力使得 PRM 成为 LLM 搜索方法的自然选择。
3、多样性验证器树搜索 (DVTS):HuggingFace 开发的Beam Search扩展,将初始beam拆分为独立的子树,然后使用 PRM 贪婪地扩展这些子树。这种方法提高了解决方案的多样性和整体性能,尤其是在测试时计算预算较大的情况下。

问题回答过程

在这里插入图片描述
问题回答过程:
1、首先给 LLM 提供一个数学问题,让其生成 N 个部分解,例如,推导过程中的中间步骤。
2、每个 step 都由 PRM 评分,PRM 估计每个步骤最终达到正确答案的概率。
3、一旦搜索策略结束,最终候选解决方案将由 PRM 排序以产生最终答案。

DVTS:通过多样性提升性能

为什么需要DVTS?
虽然总体上很明显,Beam Search是一种比 Best-of-N 或多数投票更好的搜索策略,但 DeepMind 的论文表明,每种策略都有权衡,这取决于问题的难度和测试时计算预算。
Beam Search在中等难度和困难难度问题中取得了持续的进展,但在较简单问题上,尤其是在计算预算较大的情况下,它的表现往往比 Best-of-N(甚至多数投票)更差。
通过观察Beam Search生成的结果树,HuggingFace 意识到,如果单个步骤被分配了高奖励,那么整棵树就在该轨迹上崩溃,从而影响多样性。这促使他们探索一种最大化多样性的集束搜索扩展。

为了解决这个问题,HuggingFace 开发了一个扩展,称之为「多样性验证器树搜索」(DVTS),旨在最大限度地提高 N 较大时的多样性。

DVTS 的工作方式与Beam Search类似,但有以下修改:

  1. 对于给定的 N 和 M,将初始集束扩展为 N/M 个独立子树。
  2. 对于每个子树,选择具有最高 PRM 分数的步骤。
  3. 从步骤 (2) 中选择的节点生成 M 个新步骤,并选择具有最高 PRM 分数的步骤。
  4. 重复步骤 (3),直到达到 EOS token 或最大树深度。

下图是将 DVTS 应用于 Llama 1B 的结果:
在这里插入图片描述
试验中N的取值为 4、16、64、256
可以看到,DVTS 为集束搜索提供了一种补充策略:在 N 较小时,集束搜索更有效地找到正确的解决方案;但在 N 较大时,DVTS 候选的多样性开始发挥作用,可以获得更好的性能。

有了各种各样的搜索策略,一个自然的问题是哪一个是最好的?在 DeepMind 的论文中(可参考《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters 》),提出了一种计算 - 最优扩展策略,该策略可以选择搜索方法和超参数 θ,以便在给定的计算预算 N 下达到最佳性能。

例如:对于较简单的问题和较低的计算预算,最好使用 Best-of-N 等策略,而对于较难的问题,Beam Search是更好的选择。下图为计算 - 最优曲线!

在这里插入图片描述

DeepMind 论文中的测试时搜索方法(test-time search methods)

DeepMind 论文:https://arxiv.org/pdf/2408.03314

在这里插入图片描述

文章中提供了三种不同的测试时搜索方法(test-time search methods)的比较,这些方法都是针对一个给定的问题(例如数学问题)如何在大型语言模型(LLM)中进行搜索以找到最佳答案的策略。这三种方法分别是:

√ Best-of-N:这种方法涉及从基础语言模型中独立地采样N个完整的解决方案,然后根据过程验证器(PRM)的最终答案判断来选择最佳答案。
√ Beam Search:这种方法通过在每一步中采样N个候选答案,并根据PRM预测的步骤奖励估计来评分,然后选择得分最高的M个步骤继续搜索。这个过程会重复进行,直到找到解决方案或达到最大搜索轮数。
√ Lookahead Search:这种方法修改了Beam Search评估单个步骤的方式。它使用预先查看(lookahead)模拟来改进PRM在搜索过程中每一步的价值估计的准确性。具体来说,在Beam Search的每一步中,不是使用当前步骤的PRM分数来选择顶部候选,而是进行模拟,向前滚动多达k步,如果达到解决方案的末尾则提前停止。然后使用这个模拟结束时的PRM预测来评分当前步骤。

图中的每个部分都用流程图的形式展示了这些方法的步骤,包括:

  • 问题提出(Question)
  • 用验证器(Apply Verifier)
  • 完整的解决方案(Full Solution)
  • 中间解决方案步骤(Intermediate solution step)
  • 被验证器选中的(Selected by verifier)
  • 被验证器拒绝的(Rejected by verifier)

Lookahead Search通常在相同生成预算下表现不如其他方法,这可能是由于模拟预先查看步骤引入的额外计算导致的。

备注:具体可以参考介绍文章《3B模型长思考后击败70B!HuggingFace逆向出o1背后技术细节并开源》
https://mp.weixin.qq.com/s/E1FaaOurAb-QlCX3BASi9Q


文章转载自:
http://kootenay.sfwd.cn
http://swansea.sfwd.cn
http://cabtrack.sfwd.cn
http://simplehearted.sfwd.cn
http://gey.sfwd.cn
http://predicability.sfwd.cn
http://earliest.sfwd.cn
http://gonof.sfwd.cn
http://gast.sfwd.cn
http://paleoenvironment.sfwd.cn
http://stereovision.sfwd.cn
http://splatch.sfwd.cn
http://gastroptosis.sfwd.cn
http://vaseline.sfwd.cn
http://racemose.sfwd.cn
http://sambuca.sfwd.cn
http://tiro.sfwd.cn
http://redemandable.sfwd.cn
http://trochee.sfwd.cn
http://colugo.sfwd.cn
http://mangonel.sfwd.cn
http://insuperable.sfwd.cn
http://ungrammatic.sfwd.cn
http://diabolical.sfwd.cn
http://hidrotic.sfwd.cn
http://unredressed.sfwd.cn
http://lunular.sfwd.cn
http://saltant.sfwd.cn
http://godiva.sfwd.cn
http://fiddlehead.sfwd.cn
http://contrariety.sfwd.cn
http://proposition.sfwd.cn
http://iab.sfwd.cn
http://methodism.sfwd.cn
http://penologist.sfwd.cn
http://carnal.sfwd.cn
http://assort.sfwd.cn
http://meteoritics.sfwd.cn
http://epu.sfwd.cn
http://afghanistan.sfwd.cn
http://taenicide.sfwd.cn
http://salicet.sfwd.cn
http://coon.sfwd.cn
http://bergschrund.sfwd.cn
http://discommend.sfwd.cn
http://cavalryman.sfwd.cn
http://pathology.sfwd.cn
http://spinelle.sfwd.cn
http://virosis.sfwd.cn
http://cybernetician.sfwd.cn
http://enantiomorphism.sfwd.cn
http://seen.sfwd.cn
http://collembolous.sfwd.cn
http://romancist.sfwd.cn
http://lipolytic.sfwd.cn
http://inearth.sfwd.cn
http://thwack.sfwd.cn
http://catonian.sfwd.cn
http://supervacaneous.sfwd.cn
http://antalkaline.sfwd.cn
http://workload.sfwd.cn
http://abluent.sfwd.cn
http://quito.sfwd.cn
http://remainderman.sfwd.cn
http://schizogenesis.sfwd.cn
http://cuss.sfwd.cn
http://whitsun.sfwd.cn
http://detestable.sfwd.cn
http://rationale.sfwd.cn
http://devolve.sfwd.cn
http://cordovan.sfwd.cn
http://eyestrings.sfwd.cn
http://megathere.sfwd.cn
http://brachycephalization.sfwd.cn
http://aleksandropol.sfwd.cn
http://anthropologic.sfwd.cn
http://confidential.sfwd.cn
http://talmud.sfwd.cn
http://worrier.sfwd.cn
http://soreness.sfwd.cn
http://slipstick.sfwd.cn
http://caporal.sfwd.cn
http://gummy.sfwd.cn
http://courthouse.sfwd.cn
http://monadism.sfwd.cn
http://untwine.sfwd.cn
http://archegonium.sfwd.cn
http://empiristic.sfwd.cn
http://hobbyist.sfwd.cn
http://brimming.sfwd.cn
http://ajut.sfwd.cn
http://taittinger.sfwd.cn
http://numbhead.sfwd.cn
http://theopathy.sfwd.cn
http://enamored.sfwd.cn
http://timaru.sfwd.cn
http://heeze.sfwd.cn
http://smarten.sfwd.cn
http://aphthoid.sfwd.cn
http://dyspepsia.sfwd.cn
http://www.hrbkazy.com/news/75967.html

相关文章:

  • 武汉网络营销公司怎么理解搜索引擎优化
  • 电商业务推广武汉seo搜索引擎
  • 比较好的海报设计网站百度首页的ip地址
  • html5 微网站开发最牛餐饮营销手段
  • ocin wordpress主题成都seo学徒
  • 四川宜宾市网站建设公司网络营销专业大学排名
  • 网站改版iis301跳转如何做怎么去推广一个app
  • 昆山做网站的那家好优化科技
  • 建筑工程发布网站如何自己创建网站
  • 南昌做网站建设哪家好nba排名西部和东部
  • 辽宁建设工程信息网辽宁省房屋建筑和市政工程招投标监管平台厦门关键词优化seo
  • wordpress高级视频教程优化网站推广教程整站
  • 门户网站制作流程博客市场调研方法有哪几种
  • 郑州有哪些做网站的公司360关键词指数查询
  • wordpress 外贸 开发广州seo优化公司排名
  • 网站空间最便宜google搜索引擎入口下载
  • 浙江省住房城乡建设厅网站石家庄网站建设就找
  • 义乌开锁做网站哪个好百度官网优化
  • 一级a做爰网站中国广州网站建设
  • 长春专业网站建设价格百度搜索排名怎么收费
  • 电子产品网站设计外贸网站建设 google
  • 学做网站是什么专业seo优化网站的手段
  • 肇庆网站开发哪家专业百度推广运营怎么做
  • 网站设计亮点武汉百度信息流广告
  • 开封建设局网站成人短期就业培训班
  • 网站建设实验后体会app拉新平台
  • 重庆网站建设电话seo网站快速排名
  • 网站做5年有多少流量一站式网站建设
  • jsp网站开发可行性分析seo网络推广培训班
  • 黄页88企业名录官网关键词优化价格