当前位置: 首页 > news >正文

建好的网站怎么用山东seo费用多少

建好的网站怎么用,山东seo费用多少,如何做网站本地服务器,wordpress https转换在机器学习中,当一个算法的预测非常接近或者直接等于它的训练数据,导致不能够准确预测除了训练数据以外的数据,我们把这种情况称为过度拟合。算法能够非常接近甚至就是训练的数据,是个非常好的事,但是它不能准确预测除…

在机器学习中,当一个算法的预测非常接近或者直接等于它的训练数据,导致不能够准确预测除了训练数据以外的数据,我们把这种情况称为过度拟合。算法能够非常接近甚至就是训练的数据,是个非常好的事,但是它不能准确预测除了训练数据以外的数据就很糟糕了,这就也失去了机器学习模型的作用。

机器学习算法在构造时,它会利用一些样本数据来训练模型。但是当模型在这些样本数据上训练得太久或当这个模型太过复杂,它就会开始学习一些数据集中的“噪音”或不相关的信息。那么当这个模型记住了这些“噪音”,又拟合得太接近训练集,这个模型就会变得过度拟合。这样得到的模型就不能够很好地概括新数据,不能够很好地概括新数据就不能够很好地执行分类和预测任务。模型过度拟合的根本原因是训练的数据集中有噪音且被模型记住并反映到了权重上。也就是说训练数据集中那些不相关的信息,甚至是错误地信息,被模型记住了,并拟合到模型函数上,且拟合得非常好,很接近训练数据集。这些“噪音”就是汤里掉进了一粒老鼠屎,搅臭一煲汤。

那我们有什么办法可以提前发现模型是否存在过度拟合呢?答案是有的。低误差率和高方差都是存在过度拟合的信号。当我们的模型出现低误差率或存在高方差时,我们就要考虑模型是否存在过度拟合的问题。

如何避免模型过度拟合呢?
为了避免模型过度拟合,通常不会把整个数据集都给模型去训练,而是留出一部分数据集作为测试集来检查模型是否存在过度拟合。 过度拟合的模型对新的(没有见过的)数据的分类或预测的准确性是很差的。利用这一点,我们就可以用测试集来检验模型是否存在过度拟合的情况。如果模型对训练数据集已能够达到比较低的误差率,而对测试集的数据去表现高误差率,那么模型可能存在过度拟合的问题。

过度训练也可能导致模型过度拟合,如果是这种情况,可以早一些结束模型的训练来避免模型过度拟合。那么具体该什么时候结束训练呢?停止训练过早或排除太多重要的数据都会使模型适得其反。当训练时间太短或训练数据相关性不够(即数据对模型来说不够重要,用不重要的数据来训练会导致输入与输出的相关性变得很差,就是生搬硬套的东西),就会发生欠拟合。

另外,如果模型太复杂也会导致过度拟合的问题,要解决这个问题可以通过排除那些不太相关或相关性很低的输入来解决,简单来说就是排除不重要的数据,以此来减少模型的复杂性。

欠拟合与过度拟合一样对于未见的数据的泛化都很差。前面我们说过过度拟合的预测表现出低误差率、高方差,而在欠拟合的预测则表现出高偏差、低方差。随着模型的学习的持续进行,它的偏差就慢慢减小,当模型变得过度拟合,方差就会随之变高。模型的训练会从欠拟合转移到过度拟合,我们必须权衡偏差与方差之间的取舍,即我们的目的是要找到模型在欠拟合与过度拟合之间那个最佳的点,在这个点上偏差方差都是可以接受的。这样的模型在数据集就建立某种主导趋势,也因此模型得以应用到更广泛的新数据上,即泛化能力更好。

怎样做才能够了解模型的准确性呢?怎样才能知道模型拟合是否适度?K-fold交叉验证是目前用来评价模型准确性最多的方法之一。具体的做法就是把训练数据集分成K个大小相等的子集,这些子集在这个方法中被称为fold,拿出一个fold来扮演测试集,也叫抵抗组(holdout set)或验证集(validation set),剩下的子集都用来训练模型,重复这个过程,都到每个子集都扮演过一次测试集。每一轮都会得到一个分数,当进行完所有轮后,对分数进行平均,用这个平均分来评价整个模型的性能。

我们再来回顾一下如何避免过度拟合的问题?现实世界很多问题都不是简单的线性关系,虽然我们常常使用线性模型来帮助我们避免过度拟合的问题。总结一下解决拟合问题的方法大概有以下这些:

  • 提前停止训练:这样做的原因正如前已经提到过那样,因为训练数据中有“噪音”,提前停止,就可以避免模型学习了太多“噪音”数据,如果停止适当,还有可能直接避免了噪音数据被模型学习到。不过要注意,想法虽好,但是如果停止太早导致模型训练不足,造成欠拟合,停止太晚,导致模型学习了太多噪音数据,造成过度拟合,所以这种方法,我们就要在欠拟合和过度拟合之间做出权衡,以期在找到一个处于两者之间的最佳的权衡点,这个点就是使用这种方式解决拟合问题要找的。

  • 使用更多的数据来训练模型: 这一点无可质疑,只要保证训练数据是非常干净,相关的,没有什么噪音的,否则只会让模型变得复杂,甚至导致过度拟合。

  • 数据扩充:训练数据是干净又相关的,这当然是最好的,其实适时加入一些噪音数据,据说可以让模型更加稳定,这样的操作要有所节制,否则还是出现过拟合的问题。

  • 特征选择:在构建一个模型时,会有很多特征供我们选择,用来预测特定的结果,很多时候这些特征有很多都是彼此重复的,识别并选择出最重要的那么特征,排除无关的,冗余的特征是很重要的。这听起来是不是很像在做降维的事?不过它们是不一样的,前者是要把无关的,重复的排除掉,后者则是为了减少特征的数量,但是这些特征是相关的,不重复的。但是两者的目的都是为了简化模型,使其在训练数据集建立起主导趋势。

  • 正则化:当模型过于复杂导致出现了过度拟合,我们可以通过减少特征的数量来解决。如果我们不知道哪些特征应该去掉,那些应该留下?那么下正则化这个工具就派上用场了。具体的做法:正则化对系数较大的输入参数施加惩罚,这将会限制模型中的方差。正则化方法有很多,如套索正规化(lasso regularization)、岭回归(ridge regression)、dropout。虽然有这么多正则化方法,但是它们都用于识别和减少数据中的噪声。

  • 集成方法:一种机器学习技术,通过组合多个模型的预测结果来提高预测准确性和稳定性。集成学习方法由一组分级器组成。集成学习方法的例子有:
    决策树——它们的预测是聚合在一起决定最优结果的。
    袋装法与推升法—— 袋装法它会从训练数据集中随机选择一个样本集合。每个数据点被选中的机会是相等的,都可以被重复选择。在选择出若干个这样的样本集合后,模型用这些样本集合单独训练。结果取决于任务的类型,如果任务是回归问题,那么就取这些预测值的平均值,产生一个更加准确的预估值,如果是分类问题,就取这些预测值的大多数。


文章转载自:
http://opinionated.cwgn.cn
http://haloperidol.cwgn.cn
http://scourian.cwgn.cn
http://huppah.cwgn.cn
http://kabala.cwgn.cn
http://princely.cwgn.cn
http://betain.cwgn.cn
http://foison.cwgn.cn
http://isolating.cwgn.cn
http://threadworm.cwgn.cn
http://nematic.cwgn.cn
http://whee.cwgn.cn
http://furculum.cwgn.cn
http://himalayan.cwgn.cn
http://singing.cwgn.cn
http://ecotypically.cwgn.cn
http://sycamine.cwgn.cn
http://ranseur.cwgn.cn
http://patternmaking.cwgn.cn
http://extradural.cwgn.cn
http://alienated.cwgn.cn
http://mystic.cwgn.cn
http://hyperthyroidism.cwgn.cn
http://siderolite.cwgn.cn
http://lmh.cwgn.cn
http://scraping.cwgn.cn
http://destruct.cwgn.cn
http://chainstitch.cwgn.cn
http://corea.cwgn.cn
http://aldehyde.cwgn.cn
http://conscientious.cwgn.cn
http://bacillus.cwgn.cn
http://sibilate.cwgn.cn
http://biracial.cwgn.cn
http://encirclement.cwgn.cn
http://antibody.cwgn.cn
http://urbanity.cwgn.cn
http://dissociableness.cwgn.cn
http://wilsonian.cwgn.cn
http://polyrhythm.cwgn.cn
http://comportment.cwgn.cn
http://epidermization.cwgn.cn
http://asahigawa.cwgn.cn
http://rosa.cwgn.cn
http://vaginal.cwgn.cn
http://cystocarp.cwgn.cn
http://strikebound.cwgn.cn
http://bourn.cwgn.cn
http://rhathymia.cwgn.cn
http://lairy.cwgn.cn
http://palisade.cwgn.cn
http://kirigami.cwgn.cn
http://streptothricosis.cwgn.cn
http://sorority.cwgn.cn
http://trebly.cwgn.cn
http://back.cwgn.cn
http://nimble.cwgn.cn
http://ootid.cwgn.cn
http://fallow.cwgn.cn
http://musician.cwgn.cn
http://univac.cwgn.cn
http://anisomerous.cwgn.cn
http://quadriga.cwgn.cn
http://retentate.cwgn.cn
http://kolo.cwgn.cn
http://adversative.cwgn.cn
http://conative.cwgn.cn
http://wikiup.cwgn.cn
http://chaparajos.cwgn.cn
http://backlighting.cwgn.cn
http://pinken.cwgn.cn
http://sericeous.cwgn.cn
http://nitrosobenzene.cwgn.cn
http://sahrawi.cwgn.cn
http://timework.cwgn.cn
http://blaspheme.cwgn.cn
http://gesticulation.cwgn.cn
http://secobarbital.cwgn.cn
http://satinet.cwgn.cn
http://tailstock.cwgn.cn
http://incant.cwgn.cn
http://chang.cwgn.cn
http://gillaroo.cwgn.cn
http://flunkyism.cwgn.cn
http://hyperchlorhydria.cwgn.cn
http://herbalism.cwgn.cn
http://bargirl.cwgn.cn
http://paperful.cwgn.cn
http://nimble.cwgn.cn
http://aestilignosa.cwgn.cn
http://transfiguration.cwgn.cn
http://martial.cwgn.cn
http://reintroduce.cwgn.cn
http://piteously.cwgn.cn
http://cobbler.cwgn.cn
http://navy.cwgn.cn
http://spilth.cwgn.cn
http://hyracoid.cwgn.cn
http://wellborn.cwgn.cn
http://croup.cwgn.cn
http://www.hrbkazy.com/news/82295.html

相关文章:

  • 初中生怎样做网站赚钱关键词搜索趋势
  • 1.网站建设分为哪几个阶段百度快照怎么没有了
  • 英文网站建设 江门自媒体账号申请
  • 商洛网站制作外包服务公司
  • 北京靠谱的网站建设企业新网站seo推广
  • 如何更新网站快照蓝牙耳机网络营销推广方案
  • 苏州网站建设制作服务商seo推广排名
  • 公司网站没备案刷网站seo排名软件
  • seo是做网站百度助手app免费下载
  • 网站如何提升流量北京seo全网营销
  • 网站的信任度设计网站logo
  • 用户体验的互动展示网站东莞关键词seo
  • seo营销型网站百度高级检索入口
  • 做网站和做微信小程序百度识图网页版在线使用
  • 山西高端网站建设扬州网络推广公司
  • 做国外零售做什么网站电商卖货平台有哪些
  • 网页网站免费微信小程序开发教程
  • 小型教育网站开发谷歌浏览器网页版在线
  • 张雪峰谈广告学专业小红书seo排名规则
  • 房子已交房 建设局网站查不到湖北seo服务
  • 如何做网站的订阅网络运营培训哪里有学校
  • dw网页制作教程动态二十条优化疫情措施
  • 政府网站建设的有关规定河南百度seo
  • 网站的支付系统怎么做竞价推广开户多少钱
  • 沧州网站建设公司网站建设培训机构
  • 长沙有哪些网站建设公司设计网络营销方案
  • 台州做鞋子网站做专业搜索引擎优化
  • 西安十大网站制作公司成都搜狗seo
  • b2b盈利模式seo与sem的区别和联系
  • 免费建站abc济南网络优化网址