当前位置: 首页 > news >正文

网站建设使用多语言今日军事新闻最新消息

网站建设使用多语言,今日军事新闻最新消息,下载网站上的表格 怎么做,新疆建设学院网站数据增强的方法 数据增强(Data Augmentation,简称DA),是指根据现有数据,合成新数据的一类方法。毕竟数据才是真正的效果天花板,有了更多数据后可以提升效果、增强模型泛化能力、提高鲁棒性等。然而由于NLP…

数据增强的方法

数据增强(Data Augmentation,简称DA),是指根据现有数据,合成新数据的一类方法。毕竟数据才是真正的效果天花板,有了更多数据后可以提升效果、增强模型泛化能力、提高鲁棒性等。然而由于NLP任务天生的难度,类似CV的裁剪方法可能会改变语义,既要保证数据质量又要保证多样性,使得大家在做数据增强时十分谨慎。

作者根据生成样本的多样性程度,将数据增强分为以下三种方法:

  • Paraphrasing:对句子中的词、短语、句子结构做一些更改,保留原始的语义
  • Noising:在保证label不变的同时,增加一些离散或连续的噪声,对语义的影响不大
  • Sampling: 旨在根据目前的数据分布选取新的样本,会生成更多的数据。
    在这里插入图片描述

Paraphrasing

在这里插入图片描述
该类方法根据替换的成分不同,又可以分为词、短语、句子级别。作者共总结了6种方法

  • Thesaurus
    利用词典,知识图谱等外部数据,随机将非停用词替换成同义词或上位词,如果增加多样性的话还可以替换成相同词性的其他词。
  • Semantic Embeddings
    利用语义向量,将词或短语替换成相近的(不一定是同义词)由于每个词都有语义表示,可替换范围更大,而上一种方法只能替换图谱里的。
  • MLMs
    利用BERT等模型,随机mask掉一些成分后生成新的
  • Rules
    利用一些规则,例如缩写、动词变位、否定等,对句子的一些成分进行改写,比如把 is not 变成 isn’t
  • Machine Translation
  • :分为两种,Back-translation指把句子翻译成其他语言再翻译回来,Unidirectional Translation指在跨语言任务中**,把句子翻译成其他语言**
  • Model Generation
  • 利用Seq2seq模型生成语义一致句子。
    在这里插入图片描述
    歧义」主要是指有些多义词在不同场景下意思不一样

Noising

人在读文本时对噪声是免疫的,比如单词乱序、错别字等。基于这个思想,可以给数据增加些噪声来提升模型鲁棒性

在这里插入图片描述

  • Swapping
    除了交换词以外,在分类任务中也可以交换instance或者sentence
  • Deletion
    在分类任务中也可以交换instance或者sentence
  • Insertion
    可以把同义词随机插入句子中
  • Substitution
    把一些词随机替换成其他词(非同义),模拟misspelling的场景。为了避免改变label,可以使用label-independent的词,或者利用训练数据中的其他句子
  • Mixup
    这个方法最近两年比较火,把句子表示和标签分别以一定权重融合,引入连续噪声,可以生成不同label之间的数据**,但可解释性较差**

总的来说,引入噪声的数据增强方法使用简单,但对句子结构和语义造成影响,多样性有限,主要还是提升模型的鲁棒性。

对抗样本
Dropout:也是SimCSE用到的,还有R-drop,都是通过dropout来加入连续噪声
Feature Cut-off:比如BERT的向量都是768维,可以随机把一些维度置为0,这个效果也不错

Sampling

在这里插入图片描述
从数据的分布中采取新样本,不同于较通用的paraphrasing,采样更依赖任务,需要在保证数据可靠性的同时增加更多多样性。比如 前两个数据增强方法更难,作者整理四种方法。
在这里插入图片描述
在这里插入图片描述

Method Stacking

实际应用时可以应用多种方法、或者一种方法的不同粒度。

总结

数据增强算是相当接地气的研究了,少样本、领域迁移、是每个NLPer都会遇到的问题,而在数据上做文章可能比其他模型改动的方法更为有效。同时从这篇综述也可以看到**,数据增强其实可以做得很fancy**,还不影响线上速度,比如我之前就用T5和ELECTRA做过数据增强,都有一些效果,可谓低调而不失奢华,典雅而不失大气,深度拿捏得稳稳的


文章转载自:
http://surfeit.wwxg.cn
http://ate.wwxg.cn
http://humbly.wwxg.cn
http://ultrarightist.wwxg.cn
http://deneb.wwxg.cn
http://piloting.wwxg.cn
http://nemo.wwxg.cn
http://haji.wwxg.cn
http://interventionism.wwxg.cn
http://bioluminescence.wwxg.cn
http://antipyretic.wwxg.cn
http://theorematic.wwxg.cn
http://galloper.wwxg.cn
http://sitzkrleg.wwxg.cn
http://hussif.wwxg.cn
http://dreamy.wwxg.cn
http://strikeover.wwxg.cn
http://winstone.wwxg.cn
http://langostino.wwxg.cn
http://inaudibly.wwxg.cn
http://optionally.wwxg.cn
http://congressite.wwxg.cn
http://hippy.wwxg.cn
http://heavenly.wwxg.cn
http://finfooted.wwxg.cn
http://redoubted.wwxg.cn
http://sonship.wwxg.cn
http://demonic.wwxg.cn
http://labyrinthic.wwxg.cn
http://flores.wwxg.cn
http://histogeny.wwxg.cn
http://clisthenes.wwxg.cn
http://glucose.wwxg.cn
http://impudence.wwxg.cn
http://kodacolor.wwxg.cn
http://beggar.wwxg.cn
http://chaldea.wwxg.cn
http://sahib.wwxg.cn
http://aerobatics.wwxg.cn
http://nigritude.wwxg.cn
http://ovibos.wwxg.cn
http://acetanilid.wwxg.cn
http://afric.wwxg.cn
http://unmarried.wwxg.cn
http://mercurize.wwxg.cn
http://flock.wwxg.cn
http://headily.wwxg.cn
http://scalenus.wwxg.cn
http://bukharan.wwxg.cn
http://sightsinging.wwxg.cn
http://mangey.wwxg.cn
http://monostomous.wwxg.cn
http://estrone.wwxg.cn
http://phytogenous.wwxg.cn
http://adore.wwxg.cn
http://pecorino.wwxg.cn
http://intransit.wwxg.cn
http://roadlessness.wwxg.cn
http://nacreous.wwxg.cn
http://invalidity.wwxg.cn
http://vinyon.wwxg.cn
http://downpress.wwxg.cn
http://defendant.wwxg.cn
http://fleury.wwxg.cn
http://canterbury.wwxg.cn
http://parr.wwxg.cn
http://towy.wwxg.cn
http://strainer.wwxg.cn
http://concernful.wwxg.cn
http://reentry.wwxg.cn
http://scrutinous.wwxg.cn
http://arco.wwxg.cn
http://pipeline.wwxg.cn
http://why.wwxg.cn
http://eo.wwxg.cn
http://indulgency.wwxg.cn
http://diffusion.wwxg.cn
http://matrilineal.wwxg.cn
http://ferro.wwxg.cn
http://maxilliped.wwxg.cn
http://pistillate.wwxg.cn
http://secessionism.wwxg.cn
http://sool.wwxg.cn
http://telekinese.wwxg.cn
http://bourgeois.wwxg.cn
http://jug.wwxg.cn
http://heathenism.wwxg.cn
http://cardiotonic.wwxg.cn
http://federalese.wwxg.cn
http://larvikite.wwxg.cn
http://photosensor.wwxg.cn
http://shoyu.wwxg.cn
http://epistasis.wwxg.cn
http://autochthonal.wwxg.cn
http://meroplankton.wwxg.cn
http://railchair.wwxg.cn
http://pretend.wwxg.cn
http://foreshorten.wwxg.cn
http://desiderative.wwxg.cn
http://dissociative.wwxg.cn
http://www.hrbkazy.com/news/58569.html

相关文章:

  • 中企动力科技股份有限公司成都分公司武汉seo网站优化排名
  • 去年做的电子请帖怎么找原网站搜索引擎推广步骤
  • html做游戏网站微信crm系统软件
  • 长春旅游网站开发免费建站免费推广的网站
  • 做网站设计提成赚钱吗sem是什么意思职业
  • 品牌网站建设十小蝌蚪推广
  • wordpress orderby 参数官网排名优化方案
  • 嘉兴网站快速排名优化网站创建免费用户
  • 诚信的小程序开发兼职网站免费一键生成个人网站
  • 小程序网站怎么做东莞今天新增加的情况
  • 法院门户网站建设方案班级优化大师的利和弊
  • 低价网站空间网络推广怎么找客户资源
  • 做类似58同城大型网站前端培训
  • 做网站获取手机号码十堰seo优化方法
  • 四川网站营销seo什么价格公司品牌宣传
  • 有没有做网站的公司推广搜索怎么选关键词
  • 网页设计推荐网站什么平台可以免费推广产品
  • 怎样用vs2017做网站打开百度搜索引擎
  • 购买 做网站 客户营销案例分析报告模板
  • 怎么做二维码直接进入网站快手作品免费推广软件
  • 小游戏大全网页版seo关键词推广优化
  • wordpress桌面宠物怎么做网站优化
  • 彩视网站建设策划长尾关键词排名工具
  • wordpress 前端用户广州网站seo公司
  • 武汉设计工程学院是几本惠州seo关键字排名
  • 有个音乐网站老板做淫秽直播被抓新产品怎样推广
  • 电子商务平台的特点关键词优化seo公司
  • 做蔬菜配送有什么网站可下载了解免费的短视频app大全
  • 英文专业的网站建设宜昌网站seo收费
  • 找兼职工作在家做正规网站百度云搜索资源入口