当前位置: 首页 > news >正文

婴儿网站建设住栏目域名比价网

婴儿网站建设住栏目,域名比价网,中英网站建立,旅游网站建设目标文章目录 kaggle学习 eloData项目(1)-数据校验(1) 数据基本情况查看(2) 数据校验(3) 数据探究 小结 kaggle学习 eloData项目(1)-数据校验 不能懈怠&#xff0…

文章目录

  • kaggle学习 eloData项目(1)-数据校验
    • (1) 数据基本情况查看
    • (2) 数据校验
    • (3) 数据探究
  • 小结

kaggle学习 eloData项目(1)-数据校验

  不能懈怠,加油,eloData项目在B站有讲解课,趁着热乎赶紧学一下。文章参考:kaggle比赛案例:Elo Merchant Category Recommendation(1)

  • 库文件
import os
import numpy as np
import pandas as pd
import gc       # 主动管理内存,清理内存需要
import seaborn as sns
import matplotlib.pyplot as plt

(1) 数据基本情况查看

  • 1.1 读取表格数据
    df = pd.read_excel('./eloData/Data_Dictionary.xlsx',header=2,sheet_name='train')print(df)
  • 1.2 读取表格数据的前五个查看
    df = pd.read_csv('./eloData/sample_submission.csv',header=0).head(5)print(df)
  • 1.3 读取数据的基本信息
    df = pd.read_csv('./eloData/sample_submission.csv', header=0).info()print(df)
  • 1.4 读取训练集与测试集数据
    train = pd.read_csv('./eloData/train.csv')test = pd.read_csv('./eloData/test.csv')print(train.shape,test.shape)

(2) 数据校验

  • 2.1 训练集 id 是否有重复
    if train['card_id'].nunique() == train.shape[0]:print("2.1.1True")# 测试集 id 是否有重复if test['card_id'].nunique() == test.shape[0]:print("2.1.2True")# 检验 训练集与测试集的id 是否唯一if ((train['card_id'].nunique()+test['card_id'].nunique())== len(set(train['card_id'].values.tolist()+test['card_id'].values.tolist())))  :print("2.1.3True")
  • 2.2 检验数据确实情况
    # 按列缺失值汇总查询# 训练集print(train.isnull().sum())# 测试集 缺失一条print(test.isnull().sum())
  • 2.3 异常值检测
    # 查看标签列是否有异常statistics = train['target'].describe();print("statistics",statistics)sns.set()sns.histplot(train['target'],kde=True)# plt.show()# 找出异常值 查看print("异常值个数:",(train['target']<-30).sum())# 异常值占比确认 一般采用 3δ 原则print("异常值范围:",statistics.loc['mean']-3*statistics.loc['std'])
  • 补充:聊聊python dropna()和notnull()的用法区别
  • 当未精确定位到某一列,但该列中存在空值时,dropna()会将空值所在行删除,而notnull()不会删除;在精确定位到某一列后,dropna()会输出series,而notnull()输出DataFrame。

(3) 数据探究

  • 3.1 单因素分析
    np.sort(train['first_active_month'].unique())print(len(np.sort(train['first_active_month'].unique())))# pandas的notnull函数,用于返回非空值的集合。np.sort(test[test.notnull()['first_active_month']]['first_active_month'].unique())print(len(np.sort(test[test.notnull()['first_active_month']]['first_active_month'].unique())))# 绘图查看异常值(train['feature_1'].value_counts().sort_index()/train.shape[0]).plot()(test['feature_1'].value_counts().sort_index()/train.shape[0]).plot()plt.legend(['train','test'])plt.xlabel('feature_1')plt.ylabel('ratio')plt.show()
  • 3.2 多因素联合分布
    features = train.columnsfeatures_ = features.drop(['card_id','target'])n = len(features_)for i in range(n-1):for j in range(i+1,n):f1 = features_[i]f2 = features_[j]train_com = train[[f1,f2]]test_com = test[[f1,f2]]com1 = train_com[f1].values.astype(str).tolist()com2 = train_com[f2].values.astype(str).tolist()com1_ = test_com[f1].values.astype(str).tolist()com2_ = test_com[f2].values.astype(str).tolist()data1 = pd.Series([com1[i]+'&'+com2[i] for i in range(train.shape[0])]).value_counts().sort_index()/train.shape[0]data2 = pd.Series([com1_[i] + '&' + com2_[i] for i in range(test.shape[0])]).value_counts().sort_index()/test.shape[0]data1.plot()data2.plot()plt.legend(['train', 'test'])plt.xlabel('&'.join([f1,f2]))plt.ylabel('ratio')plt.show()
  • 放一张图展示一下;
    在这里插入图片描述

小结

  海到无边天作岸,山登绝顶我为峰。
  总之,加油,共勉吧!

http://www.hrbkazy.com/news/28660.html

相关文章:

  • 网站申请建设经典软文案例200字
  • 便民信息推广平台seo排名快速刷
  • 那个网站专利分析做的好广告资源对接平台
  • 资源网站免费的seo初级入门教程
  • seo的描述正确西安seo关键词排名优化
  • 做python项目的网站互联网产品运营
  • 厦门网站建设要多少钱友情链接在线观看
  • 做网站css代码北京十大教育培训机构排名
  • 企业网站建设规划ppt成都网站建设技术外包
  • 苏州吴中长桥网站建设seo怎么优化方案
  • 如何做旅游小视频网站网络营销总监岗位职责
  • 沈阳做网站优化的公司上海网站建设
  • 请问有没有做网站小网站怎么搜关键词
  • 网站开发费用网络营销推广工具有哪些
  • 杭州企业如何建网站友情链接检索数据分析
  • 网站收录查询方法北京seo网站设计
  • 网站首页制作教程关键字搜索
  • 大连疫情防控最新消息网络培训seo
  • 佛山网站建设的首选公司热门搜索关键词
  • 网站semseo先做哪个网站建设黄页免费观看
  • 天津市住房和城乡建设厅官方网站网站链接提交收录
  • 做阿里巴巴的网站的费用网站seo工具
  • 网站建设实训不足seo快速排名软件app
  • 专业的企业网站开发公司公司建设网站哪家好
  • 杭州做网站的优质公司哪家好排名seo公司
  • 哪个网站做农产品常见的网络推广方式
  • 安陆网站建设推广合肥网络营销公司
  • 福州网站建设培训推广技巧
  • flash 网站源码电脑学校培训
  • 协作网站是什么百度推广后台登录