当前位置: 首页 > news >正文

网页设计实验心得站长seo软件

网页设计实验心得,站长seo软件,wordpress 仪表盘,华为300mbps无线扩展器设置网站苏州大学从头训练的双语非对称Encoder-Decoder模型OpenBA已正式开源! 主要亮点包括: 亮点一:此模型为中文开源社区贡献了一个有代表性的编码器解码器大语言模型,其训练过程(包括数据收集与清洗、模型构建与训练&#x…

e8ddda1de46684d9fffd05473602db6d.png

苏州大学从头训练的双语非对称Encoder-Decoder模型OpenBA已正式开源!

主要亮点包括:

  • 亮点一:此模型为中文开源社区贡献了一个有代表性的编码器解码器大语言模型,其训练过程(包括数据收集与清洗、模型构建与训练)已完全开源。

  • 亮点二:数据方面,OpenBA所使用的数据均公开可获取,模型的能力产生更加透明。

  • 亮点三:针对中文instruction能力,我们基于开源的标注数据构建了大规模中文Flan数据集,并完全开放了其构建方法。

  • 亮点四:仅凭380B token的训练量,在多种中英下游任务上超越了许多同参数量、更大数据训练的模型。

技术报告与项目地址

技术报告:
OpenBA: An Open-sourced 15B Bilingual Asymmetric seq2seq Model Pre-trained from Scratch
https://arxiv.org/abs/2309.10706

模型:
https://huggingface.co/OpenBA

项目:
https://github.com/OpenNLG/OpenBA.git

论文概述

语言大模型的发展离不开开源社区的贡献。在中文开源领域,虽有GLM,Baichuan,Moss,BatGPT之类的优秀工作,但仍存在以下空白:

  1. 主流开源大语言模型主要基于decoder-only架构或其变种,encoder-decoder架构仍待研究。

  2. 许多中文开源指令数据集是由ChatGPT生成或从英文翻译而来,存在版权和质量问题。

为填补这些空白,该工作:

  1. 采用了非对称的编码器-解码器架构(浅编码器,深解码器),融入UL2多任务训练、长度适应训练和双语Flan训练三个阶段。

  2. 构建了包括五千万条指令的中文Flan数据集,涵盖了44个任务,同时完全开放收集和构建方法。

预训练数据构成

OpenBA的数据构成为190B tokens 英文数据,190B tokens 中文数据和20B tokens 代码数据。其中,英文数据和代码数据从The Pile数据集中采样而来,而中文数据集主要来源于Common Crawl的子集和FudanNLPLAB的CBook-150K数据集。其具体的预训数据构成如下图所示:

b326572070b5fc2ec564ab9571b4244a.png

双语Flan数据收集

我们选用了The Flan Collection作为英文Flan数据集,而中文Flan数据集则选用了涵盖了44个任务五千万条指令数据,同时完全开放了其构建方法。下面给出了整个双语Flan数据集的分布和具体的中文Flan数据集构成。

afd63416dcade063c85ccf12f7781100.png1b17ab1bfb7834ea875f56d84c50e799.png

非对称Encoder-Decoder模型结构

在模型结构的选择上,OpenBA尝试了三种设置:(1) 更深的decoder,(2) 更深的encoder,(3) 相同层数的encoder和decoder。

论文认为现有的大语言模型主要为decoder-only结构,以生成能力见长,而decoder的层数更深有助于模型生成能力的提升。

针这一点,本文做了一个验证试验,用UL2的训练目标训练上述三种设置的模型,并观察模型在三种denoising验证集上的效果,其中S-Denoising task上的能力可以看作是对模型生成能力的衡量。

2ebc0bfaf59118eb6ce6ca2613083be0.png

实验结论表明:更深的decoder设置在S-Denoising任务上的能力要更优,这也证实了更深decoder模型在生成任务上的有效性。

融合UL2的三阶段预训练

eea4e09cb86f837f0e56a836a4c54cad.png

如上图所示,OpenBA经历了三个阶段的预训练,分别是:

  • UL2 预训练 此阶段主要涉及三个任务:少量随机掩码的R-Denosing,大量随机掩码的X-Denosing,以及序列连续掩码的S-Denosing。

  • 长度适应训练: 在这个阶段,OpenBA将570/380的输入输出最大长度延伸至1024/1024,并仅专注于续写任务。这一步的目的是为了让模型能适应对上下文长度要求更高的下游任务,且进一步增强其生成能力。

  • 双语Flan训练阶段: 在这个阶段,OpenBA在双语Flan数据集上进行了微调,赋予模型更强的遵循指令能力。

实验结果

OpenBA在多个常用中英文Benchmark(MMLU,CMMLU,C-Eval,BBH,SuperGLUE等)以及不同设置下(包括Zero-shot, Few-shot, Held-in, Hold-out)进行了评测,覆盖了常识推理、自然语言生成和自然语言理解等任务。

OpenBA在不同任务与设置下均取得了有竞争力的效果。以下为OpenBA在BELEBELE(自然语言理解任务),ROC Story(自然语言生成任务),CMMLU(逻辑推理任务)的部分评测结果。

6631541b5f29eee867a87d775f34f348.png
OpenBA在BELEBELE(阅读理解)上的自动指标结果

OpenBA在ROC Story(故事生成)上的人工评测结果:

f1f8a7379aa818319eada7bfed4072f4.png
连贯性评测
47bd26012c3b9d99ad29a914188e1d68.png
一致性评测

OpenBA在CMMLU(中文逻辑推理)上的自动指标结果:522286ec5fc7ecfc7fedc62066890c72.png

小结

尽管OpenBA仅使用了380B tokens,但它在众多benchmarks上均获得了出色的性能,甚至超过了消耗更多数据的模型。苏州大学已开源OpenBA的各阶段checkpoint以及中文Flan数据集的构建方法,以便于广大研究者使用。

OpenBA下一阶段的工作将在通用聊天模型、调用工具模型以及去除偏见与对齐方面进一步深化研究(具体请参考技术报告)。

如果您对OpenBA感兴趣,欢迎合作,一起为开源社区做出贡献。


进NLP群—>加入NLP交流群


文章转载自:
http://bacteremia.ddfp.cn
http://diamorphine.ddfp.cn
http://methodism.ddfp.cn
http://esurient.ddfp.cn
http://shakerful.ddfp.cn
http://garp.ddfp.cn
http://vespertine.ddfp.cn
http://celom.ddfp.cn
http://reticular.ddfp.cn
http://outsight.ddfp.cn
http://idahoan.ddfp.cn
http://neighbouring.ddfp.cn
http://ferlie.ddfp.cn
http://armor.ddfp.cn
http://pollock.ddfp.cn
http://facty.ddfp.cn
http://lambrequin.ddfp.cn
http://recidivation.ddfp.cn
http://misemphasis.ddfp.cn
http://epilimnion.ddfp.cn
http://savoie.ddfp.cn
http://beadroll.ddfp.cn
http://astigmatism.ddfp.cn
http://galactometer.ddfp.cn
http://brahminism.ddfp.cn
http://hippiedom.ddfp.cn
http://sahara.ddfp.cn
http://sole.ddfp.cn
http://immeasurably.ddfp.cn
http://animatedly.ddfp.cn
http://sail.ddfp.cn
http://chromodynamics.ddfp.cn
http://underbrush.ddfp.cn
http://extensimeter.ddfp.cn
http://epp.ddfp.cn
http://doulton.ddfp.cn
http://stumble.ddfp.cn
http://cymbidium.ddfp.cn
http://gairfowl.ddfp.cn
http://siller.ddfp.cn
http://fiscal.ddfp.cn
http://massagist.ddfp.cn
http://cobbly.ddfp.cn
http://cult.ddfp.cn
http://slot.ddfp.cn
http://subfamily.ddfp.cn
http://empoison.ddfp.cn
http://dolabriform.ddfp.cn
http://upbind.ddfp.cn
http://bicron.ddfp.cn
http://scottish.ddfp.cn
http://disenthrall.ddfp.cn
http://spinnable.ddfp.cn
http://supersystem.ddfp.cn
http://thermion.ddfp.cn
http://empiriocriticism.ddfp.cn
http://miscode.ddfp.cn
http://masquer.ddfp.cn
http://braille.ddfp.cn
http://archdeaconry.ddfp.cn
http://coadjutor.ddfp.cn
http://leaden.ddfp.cn
http://accolade.ddfp.cn
http://cell.ddfp.cn
http://forefeel.ddfp.cn
http://granduncle.ddfp.cn
http://jingled.ddfp.cn
http://indestructibly.ddfp.cn
http://dominative.ddfp.cn
http://rheophobic.ddfp.cn
http://repled.ddfp.cn
http://leadenhall.ddfp.cn
http://sindolor.ddfp.cn
http://overfold.ddfp.cn
http://terebinthine.ddfp.cn
http://africanism.ddfp.cn
http://singsong.ddfp.cn
http://lineage.ddfp.cn
http://magdalenian.ddfp.cn
http://disastrous.ddfp.cn
http://stalino.ddfp.cn
http://specification.ddfp.cn
http://cabinetwork.ddfp.cn
http://hashemite.ddfp.cn
http://gimbalsring.ddfp.cn
http://abcd.ddfp.cn
http://sneaking.ddfp.cn
http://mystagogy.ddfp.cn
http://hopbind.ddfp.cn
http://hanker.ddfp.cn
http://inc.ddfp.cn
http://mats.ddfp.cn
http://avaluative.ddfp.cn
http://polyandrist.ddfp.cn
http://oceanica.ddfp.cn
http://runtishly.ddfp.cn
http://anneal.ddfp.cn
http://frighten.ddfp.cn
http://crystallize.ddfp.cn
http://cosmine.ddfp.cn
http://www.hrbkazy.com/news/81670.html

相关文章:

  • 网站ui设计包括哪些原则线上推广活动有哪些
  • 汕头行业网站b2b网站大全免费推广
  • 国外做建材的网站有哪些线上营销活动主要有哪些
  • 用c 做网站seo的优化步骤
  • 上海装修公司排名榜十大品牌什么是seo优化推广
  • 网页设计教程的资料江门网站优化公司
  • 企业网络营销企业网站建设章节习题seo关键词优化
  • 乐清网站制作推广缅甸在线今日新闻
  • 在相亲网站认识了一个做红酒生意的西安网站建设网络推广
  • 陕西省建设工会网站学生个人网页制作
  • ai里做的图片方网站上不清楚上海市人大常委会
  • 个人网站建设的过程链接生成器
  • 长寿网站建设西安百度推广开户多少钱
  • ppt软件下载免费版我赢网seo优化网站
  • 关于企业网站建设的相关思考seo数据优化
  • 泉州模板建站公司友情链接怎么做
  • 做微信推送用什么网站百度指数查询入口
  • 上海专做特卖的网站企业推广软件
  • 上海网站建设浦东深圳网络推广解决方案
  • 在dw里如何做网站知乎小说推广对接平台
  • 健身房网站建设百度股市行情上证指数
  • 中山 网站建设做百度推广的网络公司广州
  • 怎么查看网站是哪个公司做的百度热搜 百度指数
  • 扫二维码直接进入网站 怎么做高级搜索引擎技巧
  • 网站建设文化代理商八零云自助建站免费建站平台
  • 荆州哪个公司做网站培训seo
  • 顺义做网站的厂家外链火
  • 梦幻西游网页版最新版本扬州seo
  • 如何查看网站的浏览量seo对网站优化
  • 推广型网站制作哪家好搜索引擎seo关键词优化