titanic数据集(决策树如果数据集不够多,会导致分类准确率低吗)

2024-05-25 17:00:02 :6

titanic数据集(决策树如果数据集不够多,会导致分类准确率低吗)

本文目录

决策树如果数据集不够多,会导致分类准确率低吗

  • 日中等,低),会写代码有两个 属性(会,不会),最终分类结果有两类(见,不见)。

  • 决策树如果数据集不够多,是会导致分类准确率低的。。因为对训练数据进行正确分类的决策树可能有多个,可能没有。

如何用Python在10分钟内建立一个预测模型

  预测模型的分解过程  我总是集中于投入有质量的时间在建模的初始阶段,比如,假设生成、头脑风暴、讨论或理解可能的结果范围。所有这些活动都有助于我解决问题,并最终让我设计出更强大的商业解决方案。为什么你要在前面花费这段时间,这有充分的理由:  你有足够的时间投入并且你是无经验的(这是有影响的)  你不带有其它数据观点或想法的偏见(我总是建议,在深入研究数据之前做假设生成)  在后面的阶段,你会急于完成该项目而没有能力投入有质量的时间了。  这个阶段需要投入高质量时间,因此我没有提及时间表,不过我建议你把它作为标准的做法。这有助于你建立建立更好地预测模型,在后面的阶段的只需较少的迭代工作。让我们来看看建立第一个模型的剩余阶段的时间表:  数据描述性分析——50%的时间  数据预处理(缺失值和异常值修复)——40%的时间  数据建模——4%的时间  性能预测——6%的时间  让我们一步一步完成每个过程(每一步投入预测的时间):  阶段1:描述性分析/数据探索  在我刚开始成为数据科学家的时候,数据探索占据了我大量的时间。不过,随着时间的推移,我已经把大量的数据操作自动化了。由于数据准备占据建立第一个模型工作量的50%,自动化的好处是显而易见的。  这是我们的第一个基准模型,我们去掉任何特征设计。因此,描述分析所需的时间仅限于了解缺失值和直接可见的大的特征。在我的方法体系中,你将需要2分钟来完成这一步(假设,100000个观测数据集)。  我的第一个模型执行的操作:  确定ID,输入特征和目标特征  确定分类和数值特征  识别缺失值所在列  阶段2:数据预处理(缺失值处理)  有许多方法可以解决这个问题。对于我们的第一个模型,我们将专注于智能和快速技术来建立第一个有效模型。  为缺失值创建假标志:有用,有时缺失值本身就携带了大量的信息。  用均值、中位数或其它简单方法填补缺失值:均值和中位数填补都表现良好,大多数人喜欢用均值填补但是在有偏分布的情况下我建议使用中位数。其它智能的方法与均值和中位数填补类似,使用其它相关特征填补或建立模型。比如,在Titanic生存挑战中,你可以使用乘客名字的称呼,比如:“Mr.”, “Miss.”,”Mrs.”,”Master”,来填补年龄的缺失值,这对模型性能有很好的影响。  填补缺失的分类变量:创建一个新的等级来填补分类变量,让所有的缺失值编码为一个单一值比如,“New_Cat”,或者,你可以看看频率组合,使用高频率的分类变量来填补缺失值。  由于数据处理方法如此简单,你可以只需要3到4分钟来处理数据。  阶段3:数据建模  根据不同的业务问题,我推荐使用GBM或RandomForest技术的任意一种。这两个技术可以极其有效地创建基准解决方案。我已经看到数据科学家通常把这两个方法作为他们的第一个模型同时也作为最后一个模型。这最多用去4到5分钟。  阶段4:性能预测  有各种各样的方法可以验证你的模型性能,我建议你将训练数据集划分为训练集和验证集(理想的比例是70:30)并且在70%的训练数据集上建模。现在,使用30%的验证数据集进行交叉验证并使用评价指标进行性能评估。最后需要1到2分钟执行和记录结果。  本文的目的不是赢得比赛,而是建立我们自己的基准。让我们用python代码来执行上面的步骤,建立你的第一个有较高影响的模型。  让我们开始付诸行动  首先我假设你已经做了所有的假设生成并且你擅长使用python的基本数据科学操作。我用一个数据科学挑战的例子来说明。让我们看一下结构:  步骤1:导入所需的库,读取测试和训练数据集。  #导入pandas、numpy包,导入LabelEncoder、random、RandomForestClassifier、GradientBoostingClassifier函数  import pandas as pd  import numpy as np  fromsklearn.preprocessing import LabelEncoder  import random  fromsklearn.ensemble import RandomForestClassifier  from sklearn.ensembleimport GradientBoostingClassifier  #读取训练、测试数据集  train=pd.read_csv(’C:/Users/AnalyticsVidhya/Desktop/challenge/Train.csv’)  test=pd.read_csv(’C:/Users/AnalyticsVidhya/Desktop/challenge/Test.csv’)  #创建训练、测试数据集标志  train=’Train’  test=’Test’  fullData =pd.concat(,axis=0) #联合训练、测试数据集  步骤2:该框架的第二步并不需要用到python,继续下一步。  步骤3:查看数据集的列名或概要  fullData.columns # 显示所有的列名称  fullData.head(10) #显示数据框的前10条记录  fullData.describe() #你可以使用describe()函数查看数值域的概要  步骤4:确定a)ID变量 b)目标变量 c)分类变量 d)数值变量 e)其他变量。  ID_col =  target_col =  cat_cols =  num_cols= list(set(list(fullData.columns))-set(cat_cols)-set(ID_col)-set(target_col)-set(data_col))  other_col= #为训练、测试数据集设置标识符  步骤5:识别缺失值变量并创建标志  fullData.isnull().any()#返回True或False,True意味着有缺失值而False相反  num_cat_cols = num_cols+cat_cols # 组合数值变量和分类变量  #为有缺失值的变量创建一个新的变量  # 对缺失值标志为1,否则为0  for var in num_cat_cols:  if fullData.isnull().any()=True:  fullData=fullData.isnull()*1  步骤6:填补缺失值  #用均值填补数值缺失值  fullData = fullData.fillna(fullData.mean(),inplace=True)  #用-9999填补分类变量缺失值  fullData = fullData.fillna(value = -9999)  步骤7:创建分类变量的标签编码器,将数据集分割成训练和测试集,进一步,将训练数据集分割成训练集和测试集。  #创建分类特征的标签编码器  for var in cat_cols:  number = LabelEncoder()  fullData = number.fit_transform(fullData.astype(’str’))  #目标变量也是分类变量,所以也用标签编码器转换  fullData = number.fit_transform(fullData.astype(’str’))  train=fullData=’Train’]  test=fullData=’Test’]  train = np.random.uniform(0, 1, len(train)) 《= .75  Train, Validate = train=True], train=False]  步骤8:将填补和虚假(缺失值标志)变量传递到模型中,我使用随机森林来预测类。  features=list(set(list(fullData.columns))-set(ID_col)-set(target_col)-set(other_col))  x_train = Train.values  y_train = Train.values  x_validate = Validate.values  y_validate = Validate.values  x_test=test.values  random.seed(100)  rf = RandomForestClassifier(n_estimators=1000)  rf.fit(x_train, y_train)  步骤9:检查性能做出预测  status = rf.predict_proba(x_validate)  fpr, tpr, _ = roc_curve(y_validate, status)  roc_auc = auc(fpr, tpr)  print roc_auc  final_status = rf.predict_proba(x_test)  test=final_status  test.to_csv(’C:/Users/Analytics Vidhya/Desktop/model_output.csv’,columns=)  现在可以提交了!

titanic数据集(决策树如果数据集不够多,会导致分类准确率低吗)

本文编辑:admin

本文相关文章:


titanic数据集(关于泰坦尼克号的资料)

titanic数据集(关于泰坦尼克号的资料)

本文目录关于泰坦尼克号的资料R语言自学笔记-2内置数据集pandas怎么把波士顿矩阵的90%作为训练集关于泰坦尼克号的资料泰坦尼克号(英文RMS Titanic),台湾和香港称为铁达尼号,是20世纪初英国制造的一艘在当时世界最大的豪华客轮,

2024年5月13日 16:10

更多文章:


苹果6s开不了机怎么办充电无反应(iphone6s开不了机怎么办)

苹果6s开不了机怎么办充电无反应(iphone6s开不了机怎么办)

我的苹果6s新机开不了机 充电也没有任何反应是怎么回事苹果6s手机开机开不起来解决方法:一、死机的原因开不了机1.手机开不了机,怎么办啊苹果手机突然黑屏开不了机充电也没反应的解决方法一、工具/原料1、苹果 iPhone 手机二、方法/步骤方

2024年2月27日 18:20

智慧联想app官网下载(联想看家宝APP与智慧联想APP有啥区别)

智慧联想app官网下载(联想看家宝APP与智慧联想APP有啥区别)

本文目录联想看家宝APP与智慧联想APP有啥区别智慧联想账号卸载怎么恢复谁知道联想智能手机里面自带的一个小软件叫“联想笔记”哪位知道在什么地方可以下载,谢谢大家!!联想指纹锁r1怎么进管理模式联想看家宝APP与智慧联想APP有啥区别联想看家

2024年4月14日 07:30

一加5t是5g手机吗(一加5手机支持5G吗)

一加5t是5g手机吗(一加5手机支持5G吗)

一加手机5G布局得怎么样了一加手机虽然也是基于安卓系统来运行的,一加5手机到底怎么样好不好呢,究竟一加手机的系统到底怎么样呢,可以说一加手机系统主打“轻”这样带来的坏处就是系统不够完善,一加5手机支持5G吗您好,要知道一开始一加手机就是装o

2024年3月13日 12:10

国产大型四发无人机成功首飞(国产大型四发无人机在四川成功实现首飞,这标志着什么呢)

国产大型四发无人机成功首飞(国产大型四发无人机在四川成功实现首飞,这标志着什么呢)

我国首款大型四发无人机“云影”767- ZZ无人机完成了首次空中测试飞行,中国首飞全球首款大型四发无人机:载重1.5吨自主产权,全球首款大型四发无人机由我国开发研制并成功首飞,我国从过去大疆无人机到现在的大型四发无人机,中国首飞全球首款大型

2024年3月29日 06:30

华为p10芯片(华为P10用高通什么芯片)

华为p10芯片(华为P10用高通什么芯片)

华为P10用高通什么芯片华为P10手机采用麒麟960,华为手机p10用什么芯片华为P10采用麒麟960,华为手机p10内存芯片是哪个华为手机P10内存芯片是采用的高通Snapdragon 835处理器,3、麒麟960支持更快的对焦速度,华为

2024年4月1日 04:50

华为充电提示音怎么设置(华为怎么设置充电提示音)

华为充电提示音怎么设置(华为怎么设置充电提示音)

本文目录华为怎么设置充电提示音华为充电声音怎么设置 华为充电声音设置方法华为充电提示音怎么设置华为怎样设置充电提示音华为怎么设置充电提示音充电提示音的关闭方法如下:机型:苹果11。系统:ios14.2。1、首先打开手机的快捷指令应用,点击下

2024年5月18日 03:00

i3 8100cpu参数(八代i3相当于奔腾)

i3 8100cpu参数(八代i3相当于奔腾)

本文目录八代i3相当于奔腾黑群晖推荐配置i3八代i3相当于奔腾相当于奔腾G5400。从CPU参数来看,i3 8100是四核、6M三级缓存、支持DDR42666频率内存、HUD630核心显卡、65W设计功耗;奔腾G5400则为双核、4M三级缓

2024年6月2日 09:00

红米note9好用吗(红米note9现在还值得入手吗)

红米note9好用吗(红米note9现在还值得入手吗)

本文目录红米note9现在还值得入手吗红米note94g6一128手机好不好用红米note9好不好红米note9现在还值得入手吗作为一款中低端的智能手机,红米Note 9仍然具有一定的性价比。它搭载了联发科Helio G85处理器、全高清I

2024年4月29日 11:30

北京中高风险地区名单一览表(北京高中风险区都有哪些/最新)

北京中高风险地区名单一览表(北京高中风险区都有哪些/最新)

本文目录北京高中风险区都有哪些/最新北京风险区域最新名单北京中高风险地区最新名单最新北京现在哪里有疫情北京中高风险地区北京市风险点位一览表2021全国中高风险地区名单及查询方式北京高中风险区都有哪些/最新北京高风险地区如下:截止2022年1

2024年6月2日 08:30

三星电视机图片大全(最近打算换一台电视,哪个品牌质量好一些呢)

三星电视机图片大全(最近打算换一台电视,哪个品牌质量好一些呢)

本文目录最近打算换一台电视,哪个品牌质量好一些呢三星电视机的对比度,背光,色彩,亮度,清晰度怎样才能调到最佳三星画壁电视可以为家中带来哪些改变三星电视有几个品牌型号三星电视机屏发现左边暗且边缘有拖影,右边正常,什么原因现发两幅图,请帮助分析

2024年5月31日 19:10

p20为何降价这么厉害(华为mate系列为什么比p系列掉价快啊)

p20为何降价这么厉害(华为mate系列为什么比p系列掉价快啊)

本文目录华为mate系列为什么比p系列掉价快啊华为20pro为什么掉价掉的这么厉害华为mate系列为什么比p系列掉价快啊为什么华为手机的mate系列会比p系列更贵呢?有很多人都想不明白,因为他们这两款的手机在硬件配置方面其实都非常的相似,往

2024年5月29日 06:10

小度音响怎么连接手机(小度音响怎么连接手机蓝牙)

小度音响怎么连接手机(小度音响怎么连接手机蓝牙)

小度音响怎么连接手机蓝牙1、首先进入手机设置页面中,《小度音箱》连接手机蓝牙方法 小度音箱是支持连接手机蓝牙的,下面我就为大家带来了小度音箱连接手机蓝牙的方法,2、打开手机蓝牙设置,搜索附近的蓝牙设备,oppo手机怎么连接小度手机连接

2024年3月19日 11:40

大黄蜂原型车是哪款(大黄蜂的车名是什么)

大黄蜂原型车是哪款(大黄蜂的车名是什么)

本文目录大黄蜂的车名是什么变形金刚大黄蜂原型,雪佛兰经典跑车科迈罗,现已推出第六代大黄蜂的车名是什么《变形金刚》里的大黄蜂,原型为雪弗兰卡马洛!英文名:Camaro雪佛兰卡玛洛这款概念车是Camaro车型传统的延续,低矮的车身、富有肌肉感的

2024年4月24日 13:20

r55500u处理器属于什么档次(r5-5500u相当于酷睿的几代处理器呢)

r55500u处理器属于什么档次(r5-5500u相当于酷睿的几代处理器呢)

本文目录r5-5500u相当于酷睿的几代处理器呢r5-5500u处理器怎么样r5 5500u相当于英特尔什么水平r5+5500u属于高端还是低端处理器r5 5500u相当于i几笔记本R5-5500U怎么样 ,,5500u相当于amd桌面级什

2024年6月8日 15:10

宏基a500平板(宏基A500平板电脑开机提示“POWER OFF SHUTTING DOWN”)

宏基a500平板(宏基A500平板电脑开机提示“POWER OFF SHUTTING DOWN”)

在电脑上进行刷机操作,宏基A500平板电脑开机提示“POWER OFF SHUTTING DOWN”1.关闭电源,不能开机、屏幕一直显示安卓的英文字就不动了 而且进入Recovery模式后小人直接死了只要能进入recovery说明就能开机,

2024年3月8日 20:50

夏普电视55寸多少钱一台(55寸液晶电视多少钱一台)

夏普电视55寸多少钱一台(55寸液晶电视多少钱一台)

电视机型号屏幕尺寸主要功能参考报价夏普LCD-50V3A50英寸网络、智能、全高清电视3499元夏普LCD-40S3A40英寸4K、网络、智能电视3699元夏普LCD-46DS40A46英寸全高清、智能电视3899元 较高性价比的中端电视(

2024年3月11日 05:10

nexusmods账号(如何注册上古卷轴 5 nexus的账号)

nexusmods账号(如何注册上古卷轴 5 nexus的账号)

本文目录如何注册上古卷轴 5 nexus的账号nexusmod注册看不到验证码nexusmods登陆不上如何注册上古卷轴 5 nexus的账号百度搜索“nexusmods skyrim”,第一个结果就是skyrim主站进入skyrim主站后

2024年5月22日 03:30

一个芯片的价格多少(笔记本芯片成本)

一个芯片的价格多少(笔记本芯片成本)

本文目录笔记本芯片成本戴尔显卡供电芯片多少钱电脑主板坏了换芯片要多少钱部分芯片价格从200元降至20元,这样的暴跌对行业有什么影响手机芯片成本一颗就要2900元5nm芯片成本出炉,苹果华为注定很昂贵芯片Ap6972S一个多少钱AD芯片和DA

2024年4月28日 07:00

华为畅享7价格多少钱(华为手机华为畅享7多少钱一部)

华为畅享7价格多少钱(华为手机华为畅享7多少钱一部)

华为手机华为畅享7多少钱一部华为畅享7目前华为商城在售的价格如下:2GB+16GB 全网通标配版 899元,华为畅享7 Plus的官方价格是:华为畅享7 Plus 4GB+64GB 全网通高配版是1699,华为畅享7 Plus 3GB+

2024年3月22日 14:40

中关村二小霸凌事件最后结果(学校出现霸凌是社会责任问题吗)

中关村二小霸凌事件最后结果(学校出现霸凌是社会责任问题吗)

怎样才能有效地解决霸凌事件孩子在学校被同学欺负了,丹麦教育法提案中也提出如果在校园欺凌事件中学校不作为,有学生家长称自己的孩子遭到同班同学的“霸凌”,因为校园欺凌会影响孩子的身心健康,鉴于校园欺凌事件都是发生在校园里,学校一般不会找家长,解

2024年2月27日 05:30