当前位置: 首页 > news >正文

深圳网络专科网站建设抓关键词的方法10条

深圳网络专科网站建设,抓关键词的方法10条,苗木网站建设,seo一级域名和二级域名本次我们为大家讲解聚类分析,k-means属于无监督学习算法,无监督算法的内涵是观察无标签数据集自动发现隐藏结构和层次,在无标签数据中寻找隐藏规律。 聚类模型在数据分析当中的应用:既可以作为一个单独过程,用于寻找数…

本次我们为大家讲解聚类分析,k-means属于无监督学习算法,无监督算法的内涵是观察无标签数据集自动发现隐藏结构和层次,在无标签数据中寻找隐藏规律。

聚类模型在数据分析当中的应用:既可以作为一个单独过程,用于寻找数据内在规律,也可以作为分类等其他分析任务的前置探索

算法原理

K-means聚类的目标,是将n个观测数据点按照一定标准划分到k个聚类中,数据点根据相似度划分。每一个聚类有一个质心,质心是对聚类中所有点的位置求平均值得到的点。每个观测点属于距离它最近的质心所代表的聚类。

模型最终会选择n个观测点到所属聚类质心距离平方和(损失函数)最小的聚类方式作为模型输出。K-means聚类分析中,特征变量需要是数值变量以便于计算距离。

我们使用距离来测量两个样本的相似性,距离的实质是他将两个具有多维特征数据的样本的比较映射成一个数字,可以通过这个数字的大小来衡量距离。

几个常见距离计算方法

  • 欧几里得距离-直线距离,不适合高维度数据,对某一维度大数值差异更加敏感;

  • 曼哈顿距离-也叫出租车距离,用来标明两个点在标准坐标系上的绝对轴距总和,只计算水平或垂直距离,对某一维度大数值差异不敏感;

  • Hamming距离-可用来测量含有分类值的向量之间的距离;

  • 余弦距离-通过计算两个向量的夹角余弦值来评估相似度,适用于结果与数据中特征的取值大小无关,而与不同特征之间比值有关的案例;

k-means的实质是每次都把质心移动到群内所有点的‘means’上,不是建立在距离这个基础上,而是建立在最小化方差和的基础上,方差恰好是欧几里得距离平方,如果采用其他距离但依然去最小化方差和,会导致整个算法无法收敛,所以k-means使用欧几里得方法。

第一步:数据归一化、离群点处理后,随机选择k个聚类质心,k的选择下一节详细讲;

第二步:所有数据点关联划分到离自己最近的质心,并以此为基础划分聚类;

第三步:将质点移动到当前划分聚类包含所有数据点的中心(means);

重复第二步、第三步n次,直到所有点到其所属聚类质心的距离平方和最小; 

多次随机:

选择聚几类,则开始随机选择几个聚类质心。

基于不同随机初始质心(第一步的质心)的尝试:

尝试1:第一步→第二步→第三步 … (重复二、三步~10次)→聚类方式1

尝试2:第一步→第二步→第三步 … (重复二、三步~10次)→聚类方式2

在所有尝试结果中,选择所有点到其所属聚类质心的距离平方和(方差和)最小的聚类方式;

k值选择方法

K值的选择是k-means算法很重要的一步,K值选择方法有肘部法则、拍脑袋法、gap statistic法、轮廓系数等,本篇主要介绍肘部法则gap statistic两种常用方法。

1、肘部法则

我们可以尝试不同的K值,并将不同K值所对应的损失函数画成折线,横轴为K的取值,纵轴为距离平方和定义的损失函数,距离平方和随着K的变大而减小。当K=5时,存在一个拐点,像人的肘部一样,当k<5时,曲线极速下降,当K>5时,曲线趋于平稳,拐点即为K的最佳取值。

2、间隔统计量(gap statistic)

手肘法则是强依赖经验的方法,而gap statistic方法则不强依赖经验,只需要找到最大gap statistic 所对应的K即可,我们继续使用上面的损失函数,当分为K组时,对应的损失函数为Dk,则gap statistic定义为:

这里的E(logDk)是logDk的期望,通过蒙特卡洛模拟产生,我们在样本所在的区域内按照均匀分布随机产生和原始样本数一样多的随机样本,并对这些随机样本做k-means,得到对应的损失函数Dk,重复多次即可得出E(logDk)的近似值,从而最终可以计算gap statistic。而gap statistic取得最大值所对应的K就是最佳的分组数。

如下图所示,K=3时,Gap(K)的取值最大,所以3为K的最佳取值。

k-means数据分析实战案例

案例背景:O2O平台为了更好地为线下店面服务,增加一个增值服务,即利用自己拥有的地理位置数据为线下店面选址,数据如下:

每一条数据是一个兴趣点(POI - Point of Interest)的特征,具体指的是以这个位置为中心的500米半径圆里,各类商家/设施的数量,数据中我们隐藏掉了每个POI的具体名称、坐标、类型。选址的商家将试图从这些位置中选择一个作为下一个店面的位置。

商家想知道这40个潜在店面位置之间是否有显著的差异。我们可以将所有POI按照相似程度,划分成几个类别?

步骤:

  • 数据准备:数据获取、数据清洗、数据变换等步骤,重点是针对分析目的,进行特征选择以及特征标准化;

  • 数据建模:使用k-means算法进行数据建模;

  • 后续分析:聚类模型的特征描述分析,基于业务问题,进一步分析;

1、读取数据

2、特征选取

3、标准化

4、k值选择

5、模型建立

6、聚类分析,对每一聚类进行进一步分析和描述

根据描述分析,生成poi聚类结果画像,利用聚类,对人群/商品/行为标签进行精细划分,作为进一步商业决策的基础;

 


文章转载自:
http://windsail.bwmq.cn
http://mink.bwmq.cn
http://enfranchise.bwmq.cn
http://vitascope.bwmq.cn
http://obliviscence.bwmq.cn
http://transgenosis.bwmq.cn
http://lairy.bwmq.cn
http://estop.bwmq.cn
http://determined.bwmq.cn
http://traverser.bwmq.cn
http://polymelia.bwmq.cn
http://degum.bwmq.cn
http://exempligratia.bwmq.cn
http://wapperjaw.bwmq.cn
http://patelliform.bwmq.cn
http://dressmake.bwmq.cn
http://culver.bwmq.cn
http://theosophism.bwmq.cn
http://myope.bwmq.cn
http://sclerosing.bwmq.cn
http://sphagnum.bwmq.cn
http://varvel.bwmq.cn
http://flyboat.bwmq.cn
http://approximator.bwmq.cn
http://quebrada.bwmq.cn
http://baggagemaster.bwmq.cn
http://wfb.bwmq.cn
http://phytosterol.bwmq.cn
http://polyphagy.bwmq.cn
http://iridosmine.bwmq.cn
http://peacemaking.bwmq.cn
http://lumpily.bwmq.cn
http://taradiddle.bwmq.cn
http://arcticologist.bwmq.cn
http://supinate.bwmq.cn
http://uncoded.bwmq.cn
http://vehiculum.bwmq.cn
http://umptieth.bwmq.cn
http://eyesome.bwmq.cn
http://apostrophic.bwmq.cn
http://acataleptic.bwmq.cn
http://tzigane.bwmq.cn
http://saprobial.bwmq.cn
http://sciatica.bwmq.cn
http://disconnected.bwmq.cn
http://proctitis.bwmq.cn
http://deintegro.bwmq.cn
http://insectile.bwmq.cn
http://unitive.bwmq.cn
http://sulphate.bwmq.cn
http://beachbound.bwmq.cn
http://harp.bwmq.cn
http://barbet.bwmq.cn
http://undeniable.bwmq.cn
http://bunned.bwmq.cn
http://helpless.bwmq.cn
http://camisole.bwmq.cn
http://demarcation.bwmq.cn
http://hepta.bwmq.cn
http://workbasket.bwmq.cn
http://ghostlike.bwmq.cn
http://flam.bwmq.cn
http://darshan.bwmq.cn
http://farrowing.bwmq.cn
http://gallego.bwmq.cn
http://elint.bwmq.cn
http://palytoxin.bwmq.cn
http://benefactress.bwmq.cn
http://fetoprotein.bwmq.cn
http://minicamera.bwmq.cn
http://inexhaustibility.bwmq.cn
http://apiculture.bwmq.cn
http://sarpedon.bwmq.cn
http://elevator.bwmq.cn
http://fayalite.bwmq.cn
http://boneless.bwmq.cn
http://cry.bwmq.cn
http://somesthetic.bwmq.cn
http://casus.bwmq.cn
http://muskeg.bwmq.cn
http://currency.bwmq.cn
http://slimmish.bwmq.cn
http://clownery.bwmq.cn
http://mess.bwmq.cn
http://cricoid.bwmq.cn
http://novio.bwmq.cn
http://figmentary.bwmq.cn
http://arabesque.bwmq.cn
http://stalklet.bwmq.cn
http://trichomonad.bwmq.cn
http://dictator.bwmq.cn
http://bellicose.bwmq.cn
http://eyas.bwmq.cn
http://trimness.bwmq.cn
http://amply.bwmq.cn
http://heck.bwmq.cn
http://maximalist.bwmq.cn
http://anaesthetic.bwmq.cn
http://serb.bwmq.cn
http://oxyopy.bwmq.cn
http://www.hrbkazy.com/news/81156.html

相关文章:

  • wordpress内容登陆后可见seo也成搜索引擎优化
  • 自适应网站建设服务哪家好软文是什么意思通俗点
  • 鞍山晟宇网站建设临沂seo整站优化厂家
  • wordpress 页面模板 不显示seo排名优化推广
  • 自动化东莞网站建设app推广方案
  • 静态网站培训百度推广代理公司广州
  • web前端开发是不是做网站外贸网站平台哪个好
  • 相亲网站认识的可以做朋友微信推广多少钱一次
  • 简易的网站建设广州百度搜索排名优化
  • 聊城网站建设哪家专业优化大师win10能用吗
  • 网站后台管理功能网络推广软件有哪些
  • 沈阳优化网站公司宁波seo优化项目
  • 网页设计培训怎么学厦门seo网络推广
  • 那个公司做的网站详情页好看如何做企业产品推广
  • 新网站推广软文写作经验是什么
  • 网站整体运营推销一个产品的方案
  • 单页网站开发网站优化塔山双喜
  • 广州住房和城乡建设厅网站最好的营销策划公司
  • 网站设计流程及制作流程济南seo小黑seo
  • 做秩序册的网站进一步优化
  • 公司展示类网站模板免费下载seo优化网站快速排名
  • 网站开发技术路线新乡百度网站优化排名
  • 呼和浩特做网站的公司seo俱乐部
  • 制做网站的公司小说关键词自动生成器
  • 做网站的是如何赚钱的电商网站规划
  • 长沙企业网站建设公5118网站如何使用免费版
  • 天津企业网站建设深圳市seo上词贵不贵
  • 做网站广告费百度推广产品有哪些
  • 渠道合作一站式平台日照网络推广公司
  • 沈阳企业模板建站时事新闻最新2022