当前位置: 首页 > news >正文

大型门户网站建设的意义互联网最赚钱的行业

大型门户网站建设的意义,互联网最赚钱的行业,自助贸易网,wordpress安全登录插件下载失败最近做项目遇到的数据集中,有许多高维类别特征。catboost是可以直接指定categorical_columns的【直接进行ordered TS编码】,但是XGboost和随机森林甚至决策树都没有这个接口。但是在学习决策树的时候(无论是ID3、C4.5还是CART)&am…

最近做项目遇到的数据集中,有许多高维类别特征。catboost是可以直接指定categorical_columns的【直接进行ordered TS编码】,但是XGboost和随机森林甚至决策树都没有这个接口。但是在学习决策树的时候(无论是ID3、C4.5还是CART),肯定都知道决策树可以直接天然处理离散特征,那难道sklearn的决策树可以自己判断哪些特征是离散or连续?
在这里插入图片描述

决策树怎么处理连续特征

首先要明确,分类树和回归树,只是看label值是类别型还是连续型,和特征中是离散还是连续没有关系。并不是说CART回归树不能使用离散的特征,只是CART回归树里并不使用gini系数来计算增益。【补充题外话:CART作为一个二叉树,每次分列并不会和ID3一样消耗这一列特征,只是消耗了该特征的一个分界点
关于特征为连续属性时CART决策树如何处理:二分法——先从小到大依次排序,然后依次划分,进行判定。具体可以参考这篇博客。
在这里插入图片描述

sklearn里的决策树怎么处理类别特征的

答案是——不处理。在sklearn实现的CART树中,是用同一种方式去处理离散与连续的特征的,即:把离散的特征也都当做连续的处理了,只能处理连续特征 和 做编码成数字的离散特征
在这里插入图片描述
在这里插入图片描述
可以看这个问题,我的理解是sklearn为了速度对CART的原来算法做了一定的改进,不再按照原来的方法处理离散特征,而是都统一成连续特征来处理了【所以没有categorical_columns接口】。
其实理论上来说,XGB是可以用离散变量的,毕竟增益只和结点上的样本有关,特征只是决定树的结构:
在这里插入图片描述

解决方案

如果想使用DT、RF、XGB,离散特征需要人为进行处理。可以看这个博客,对类别特征进行编码。如果类别不是很多,可以考虑用one-hot(尽管决策树不太欢迎onehot),类别特征太多的,就要考虑用target encoding或者catboost encoding等编码方式来处理了。
另一方面,一些实际应用的结果表明,在特征维度很大的情况下,直接把每个特征编码成数字然后当做数值特征来用,其实效果并不会比严格按照categorical来使用差很多,或许可以考虑直接用LabelEncoder直接对高维类别特征进行编码,转化为数值特征。
或者考虑换LGBM、CatBoost

http://www.hrbkazy.com/news/50528.html

相关文章:

  • 彭州建设局网站百度客服人工电话95188
  • 网站开发的前端后端黑马程序员培训机构官网
  • 做一个营销型网站多少钱百度pc版网页
  • 网站建设服务条款百度打广告怎么收费
  • 企业邮箱与个人邮箱有什么区别seo1新地址在哪里
  • 微网站地图定位百度推广二级代理商
  • 深圳住房和城乡建设部网站免费的个人网页
  • flash 网站建设做网络优化哪家公司比较好
  • 网站开发论文英文资料做推广的技巧
  • 长春网站优化方式爱站网ip反查域名
  • 如何做视频网站首页竞价账户托管哪家好
  • 戴尔的网站建设360信息流广告平台
  • 推广网站的广告怎样做最新军事头条
  • 有个网站发任务 用手机可以做今日国内新闻最新消息10条新闻
  • 河南航天建设工程有限公司网站google关键词排名查询
  • 贵州省建设厅网站造价工程信息优化大师官方正版下载
  • seo网站优化详解优化大师客服电话
  • 网站开发工具大全西安网站推广
  • 查看邮箱注册过的网站邯郸网站优化公司
  • 帝国网站管理系统教程外贸网站制作公司
  • 政府网站建设方案.doc晋城seo
  • 网站的服务器是什么项目外包平台
  • 企业网站建设管理系统广州seo服务外包
  • bootstrap怎么做响应式网站google chrome download
  • 苹果商店app下载seo优化工作怎么样
  • wordpress和zblogphp站长之家seo查找
  • 医疗网站 seo怎么做制作网站公司
  • 网站建设 软件整站优化外包服务
  • 无锡做网站国际新闻视频
  • 博客网站建设方案书按效果付费的网络推广方式