titanic数据集(决策树如果数据集不够多,会导致分类准确率低吗)

2024-05-25 17:00:02 :17

titanic数据集(决策树如果数据集不够多,会导致分类准确率低吗)

本文目录

决策树如果数据集不够多,会导致分类准确率低吗

  • 日中等,低),会写代码有两个 属性(会,不会),最终分类结果有两类(见,不见)。

  • 决策树如果数据集不够多,是会导致分类准确率低的。。因为对训练数据进行正确分类的决策树可能有多个,可能没有。

如何用Python在10分钟内建立一个预测模型

  预测模型的分解过程  我总是集中于投入有质量的时间在建模的初始阶段,比如,假设生成、头脑风暴、讨论或理解可能的结果范围。所有这些活动都有助于我解决问题,并最终让我设计出更强大的商业解决方案。为什么你要在前面花费这段时间,这有充分的理由:  你有足够的时间投入并且你是无经验的(这是有影响的)  你不带有其它数据观点或想法的偏见(我总是建议,在深入研究数据之前做假设生成)  在后面的阶段,你会急于完成该项目而没有能力投入有质量的时间了。  这个阶段需要投入高质量时间,因此我没有提及时间表,不过我建议你把它作为标准的做法。这有助于你建立建立更好地预测模型,在后面的阶段的只需较少的迭代工作。让我们来看看建立第一个模型的剩余阶段的时间表:  数据描述性分析——50%的时间  数据预处理(缺失值和异常值修复)——40%的时间  数据建模——4%的时间  性能预测——6%的时间  让我们一步一步完成每个过程(每一步投入预测的时间):  阶段1:描述性分析/数据探索  在我刚开始成为数据科学家的时候,数据探索占据了我大量的时间。不过,随着时间的推移,我已经把大量的数据操作自动化了。由于数据准备占据建立第一个模型工作量的50%,自动化的好处是显而易见的。  这是我们的第一个基准模型,我们去掉任何特征设计。因此,描述分析所需的时间仅限于了解缺失值和直接可见的大的特征。在我的方法体系中,你将需要2分钟来完成这一步(假设,100000个观测数据集)。  我的第一个模型执行的操作:  确定ID,输入特征和目标特征  确定分类和数值特征  识别缺失值所在列  阶段2:数据预处理(缺失值处理)  有许多方法可以解决这个问题。对于我们的第一个模型,我们将专注于智能和快速技术来建立第一个有效模型。  为缺失值创建假标志:有用,有时缺失值本身就携带了大量的信息。  用均值、中位数或其它简单方法填补缺失值:均值和中位数填补都表现良好,大多数人喜欢用均值填补但是在有偏分布的情况下我建议使用中位数。其它智能的方法与均值和中位数填补类似,使用其它相关特征填补或建立模型。比如,在Titanic生存挑战中,你可以使用乘客名字的称呼,比如:“Mr.”, “Miss.”,”Mrs.”,”Master”,来填补年龄的缺失值,这对模型性能有很好的影响。  填补缺失的分类变量:创建一个新的等级来填补分类变量,让所有的缺失值编码为一个单一值比如,“New_Cat”,或者,你可以看看频率组合,使用高频率的分类变量来填补缺失值。  由于数据处理方法如此简单,你可以只需要3到4分钟来处理数据。  阶段3:数据建模  根据不同的业务问题,我推荐使用GBM或RandomForest技术的任意一种。这两个技术可以极其有效地创建基准解决方案。我已经看到数据科学家通常把这两个方法作为他们的第一个模型同时也作为最后一个模型。这最多用去4到5分钟。  阶段4:性能预测  有各种各样的方法可以验证你的模型性能,我建议你将训练数据集划分为训练集和验证集(理想的比例是70:30)并且在70%的训练数据集上建模。现在,使用30%的验证数据集进行交叉验证并使用评价指标进行性能评估。最后需要1到2分钟执行和记录结果。  本文的目的不是赢得比赛,而是建立我们自己的基准。让我们用python代码来执行上面的步骤,建立你的第一个有较高影响的模型。  让我们开始付诸行动  首先我假设你已经做了所有的假设生成并且你擅长使用python的基本数据科学操作。我用一个数据科学挑战的例子来说明。让我们看一下结构:  步骤1:导入所需的库,读取测试和训练数据集。  #导入pandas、numpy包,导入LabelEncoder、random、RandomForestClassifier、GradientBoostingClassifier函数  import pandas as pd  import numpy as np  fromsklearn.preprocessing import LabelEncoder  import random  fromsklearn.ensemble import RandomForestClassifier  from sklearn.ensembleimport GradientBoostingClassifier  #读取训练、测试数据集  train=pd.read_csv(’C:/Users/AnalyticsVidhya/Desktop/challenge/Train.csv’)  test=pd.read_csv(’C:/Users/AnalyticsVidhya/Desktop/challenge/Test.csv’)  #创建训练、测试数据集标志  train=’Train’  test=’Test’  fullData =pd.concat(,axis=0) #联合训练、测试数据集  步骤2:该框架的第二步并不需要用到python,继续下一步。  步骤3:查看数据集的列名或概要  fullData.columns # 显示所有的列名称  fullData.head(10) #显示数据框的前10条记录  fullData.describe() #你可以使用describe()函数查看数值域的概要  步骤4:确定a)ID变量 b)目标变量 c)分类变量 d)数值变量 e)其他变量。  ID_col =  target_col =  cat_cols =  num_cols= list(set(list(fullData.columns))-set(cat_cols)-set(ID_col)-set(target_col)-set(data_col))  other_col= #为训练、测试数据集设置标识符  步骤5:识别缺失值变量并创建标志  fullData.isnull().any()#返回True或False,True意味着有缺失值而False相反  num_cat_cols = num_cols+cat_cols # 组合数值变量和分类变量  #为有缺失值的变量创建一个新的变量  # 对缺失值标志为1,否则为0  for var in num_cat_cols:  if fullData.isnull().any()=True:  fullData=fullData.isnull()*1  步骤6:填补缺失值  #用均值填补数值缺失值  fullData = fullData.fillna(fullData.mean(),inplace=True)  #用-9999填补分类变量缺失值  fullData = fullData.fillna(value = -9999)  步骤7:创建分类变量的标签编码器,将数据集分割成训练和测试集,进一步,将训练数据集分割成训练集和测试集。  #创建分类特征的标签编码器  for var in cat_cols:  number = LabelEncoder()  fullData = number.fit_transform(fullData.astype(’str’))  #目标变量也是分类变量,所以也用标签编码器转换  fullData = number.fit_transform(fullData.astype(’str’))  train=fullData=’Train’]  test=fullData=’Test’]  train = np.random.uniform(0, 1, len(train)) 《= .75  Train, Validate = train=True], train=False]  步骤8:将填补和虚假(缺失值标志)变量传递到模型中,我使用随机森林来预测类。  features=list(set(list(fullData.columns))-set(ID_col)-set(target_col)-set(other_col))  x_train = Train.values  y_train = Train.values  x_validate = Validate.values  y_validate = Validate.values  x_test=test.values  random.seed(100)  rf = RandomForestClassifier(n_estimators=1000)  rf.fit(x_train, y_train)  步骤9:检查性能做出预测  status = rf.predict_proba(x_validate)  fpr, tpr, _ = roc_curve(y_validate, status)  roc_auc = auc(fpr, tpr)  print roc_auc  final_status = rf.predict_proba(x_test)  test=final_status  test.to_csv(’C:/Users/Analytics Vidhya/Desktop/model_output.csv’,columns=)  现在可以提交了!

titanic数据集(决策树如果数据集不够多,会导致分类准确率低吗)

本文编辑:admin

本文相关文章:


titanic数据集(关于泰坦尼克号的资料)

titanic数据集(关于泰坦尼克号的资料)

本文目录关于泰坦尼克号的资料R语言自学笔记-2内置数据集pandas怎么把波士顿矩阵的90%作为训练集关于泰坦尼克号的资料泰坦尼克号(英文RMS Titanic),台湾和香港称为铁达尼号,是20世纪初英国制造的一艘在当时世界最大的豪华客轮,

2024年5月13日 16:10

更多文章:


华硕f8进入安全模式(华硕笔记本如何进入安全模式)

华硕f8进入安全模式(华硕笔记本如何进入安全模式)

本文目录华硕笔记本如何进入安全模式华硕主板按F几进安全模式,按F8怎么进不了华硕笔记本win10系统,无法开机,按F8无法进入安全模式,请问怎么解决华硕主板,无法开机的状况下怎么进入安全模式我按F8如下图华硕电脑怎么进入安全模式华硕笔记本按

2024年8月27日 05:00

荣耀x40gt和华为nova10哪个好(华为nova10和荣耀V10哪个好)

荣耀x40gt和华为nova10哪个好(华为nova10和荣耀V10哪个好)

本文目录华为nova10和荣耀V10哪个好荣耀magic4和华为nova10se哪个好荣耀x40gt怎么样华为nova10和荣耀40pro哪个好华为nova10和荣耀V10哪个好华为nova10更好一些。HUAWEI nova 10采用6.

2024年6月9日 04:40

松下fp7009cn(在线观看传真机kx-fp7009cn怎样安装印字薄膜)

松下fp7009cn(在线观看传真机kx-fp7009cn怎样安装印字薄膜)

本文目录在线观看传真机kx-fp7009cn怎样安装印字薄膜松下KX-FP709CN打印机传真时总会有一张折纸出来,这是怎么回事松下KX-FP706CN和KX-FP709CN还有383、343、7006、7009这些有什么区别哪款最实用在线

2024年10月17日 12:20

华硕p8h61支持最高的cpu(支持 华硕 P8H61 最好的CPU是哪个)

华硕p8h61支持最高的cpu(支持 华硕 P8H61 最好的CPU是哪个)

本文目录支持 华硕 P8H61 最好的CPU是哪个h61主板支持的cpu华硕p8h61主板支持i3 3220 i3 3240不华硕p8h61大板主板支持最高版本的CPU是什么型号华硕p8h61配最高cpu请问华硕p8h61这个主板能用几个c

2024年8月29日 17:40

小米10原装充电器(小米10充电器参数)

小米10原装充电器(小米10充电器参数)

小米10原装充电器是多少瓦小米10原装充电器是30W,小米10原装充电器参数小米10原装充电器是30W,小米10充电器参数小米10原装充电器是30W,小米10原装充电器多少瓦小米10是小米公司旗下的手机,小米10支持30W的高速闪充,以上就

2024年3月31日 10:40

金士顿u盘官网报价(行货1G金士顿U盘大概多少钱)

金士顿u盘官网报价(行货1G金士顿U盘大概多少钱)

行货1G金士顿U盘大概多少钱在淘宝网上买吧 正品行货 50左右即可,金士顿500gu盘报价是多少你看错了吧U盘容量现在主流都是在64g以下,价格不到三十元,金士顿U盘4g容量有多少价钱大概是多少金士顿优盘有好几种型号,还是网上买最便宜 上个

2024年3月10日 16:20

千万别增驾直接考d本(为什么千万别增驾直接考d本)

千万别增驾直接考d本(为什么千万别增驾直接考d本)

本文目录为什么千万别增驾直接考d本千万别增驾直接考d本有C1想考D不增驾行吗有C1驾照的有必要考D照吗有C1证,可不可以不在原证上增驾,直接再办个D证已经有了C1,有没有必要增驾D证可以直接考D照吗,没有C1驾照,只考D照c1增驾D有没有意

2024年5月23日 23:00

fist是什么币?fist怎么读

fist是什么币?fist怎么读

本文目录fist是什么币fist怎么读fist中文是什么意思fist什么意思fist是什么币FIST是REV生态的治理代币,全都来自于REV持有者挖矿产生,所有的币都在玩家手里,所有币的分布及交易都可以在链上查询。拓展资料:1、FIST开发

2024年5月2日 20:20

森海塞尔momentum说明书(森海塞尔大馒头怎么连接电脑)

森海塞尔momentum说明书(森海塞尔大馒头怎么连接电脑)

本文目录森海塞尔大馒头怎么连接电脑森海塞尔Momentum蓝牙耳机怎么连接蓝牙森海塞尔大馒头三代如何回复出厂设置森海塞尔Momentum蓝牙耳机怎么查看电量Momentum free耳机怎么连接蓝牙森海塞尔cxtruewireless使用说

2024年10月31日 19:00

ipad2升级ios12流畅吗(iPad air2升级到iOS12卡不卡能不能升级啊)

ipad2升级ios12流畅吗(iPad air2升级到iOS12卡不卡能不能升级啊)

本文目录iPad air2升级到iOS12卡不卡能不能升级啊iOS12正式版升级好不好值得升级吗ipad a1474能升级ios12会卡吗ipad更新到ios12会卡吗IPad Air2 ios11.2能不能升级到ios12升级了会不会使用

2024年8月26日 17:50

惠普打印机1020驱动下载安装(惠普1020打印机驱动安装步骤惠普1020硒鼓怎么加墨粉)

惠普打印机1020驱动下载安装(惠普1020打印机驱动安装步骤惠普1020硒鼓怎么加墨粉)

本文目录惠普1020打印机驱动安装步骤惠普1020硒鼓怎么加墨粉惠普1020打印机怎么重新装驱动hp1020plus打印机驱动怎么安装如何从网上下载打hpLaserjet1020打印机驱动器并安装打印机惠普1020打印机如何安装惠普1020

2024年9月29日 02:50

11900h(11950h可以用在台式吗)

11900h(11950h可以用在台式吗)

惠普暗影精灵7 Plus的酷睿i9-11900H处理器搭配RTX 3080显卡,七、总结:顶级酷睿处理器 游戏 利器 单从硬件配置上看,惠普暗影精灵7 Plus搭载Intel最强处理器之一的11代 酷睿i9-11900H,i911

2024年3月18日 08:20

为什么电脑开机慢(电脑开机慢的原因及解决办法)

为什么电脑开机慢(电脑开机慢的原因及解决办法)

本文目录电脑开机慢的原因及解决办法为什么电脑开机慢电脑开机很慢是怎么回事新电脑开机速度慢为什么我的电脑开机慢电脑开机慢是怎么回事电脑开机慢是什么原因电脑开机慢的原因及解决办法电脑开机慢的原因及解决办法:一、电脑老化如果是使用年限较长的笔记本

2024年11月3日 22:00

二手金立手机多少钱(金立F40,运行6级,内存64G,回收大概多少钱)

二手金立手机多少钱(金立F40,运行6级,内存64G,回收大概多少钱)

本文目录金立F40,运行6级,内存64G,回收大概多少钱金立f6去二手手机店能卖多少钱金立5.1二手手机能卖多少钱二手金立w900可以卖多少钱金立手机S10L不用了可以卖多少钱金立F40,运行6级,内存64G,回收大概多少钱金立F40,运行

2024年10月22日 19:10

佳能60d价格走势(佳能60d用了三年多祼机现在值多少没有问题成色八成新的样子)

佳能60d价格走势(佳能60d用了三年多祼机现在值多少没有问题成色八成新的样子)

本文目录佳能60d用了三年多祼机现在值多少没有问题成色八成新的样子佳能60D多少钱出手比较合适佳能60D咋样,现在大概多少钱单反相机佳能60D套机啊目前市场价格多少如果镜头只配18~~55的呢佳能60D价格分析,大概什么时候还能再降佳能单反

2024年9月7日 21:00

联想跳槽出去受欢迎吗(如何看待常程从联想离职,去小米工作)

联想跳槽出去受欢迎吗(如何看待常程从联想离职,去小米工作)

本文目录如何看待常程从联想离职,去小米工作频繁跳槽的人是不是不受欢迎HR 真的会嫌弃面试者跳槽频繁吗频繁跳槽的人是不是不受欢迎啊hr会嫌弃跳槽的人吗如果杨元庆想离开联想到小米格力华为等公司去,会被接纳吗职场中那些频繁跳槽的人,为什么会不受欢

2024年11月11日 00:40

索尼Xperia ZL的手机参数?索尼xperia z对比索尼 Xperia zl

索尼Xperia ZL的手机参数?索尼xperia z对比索尼 Xperia zl

本文目录索尼Xperia ZL的手机参数索尼xperia z对比索尼 Xperia zl索尼Xperia ZL的介绍索尼手机zl无故黑屏无法开机.连接充电器才能开机索尼Xperia ZL的手机参数基本参数上市日期:2013年手机类型:3G手

2024年10月21日 19:50

wifi密码修改入口(修改Wi-Fi密码的网址是什么了)

wifi密码修改入口(修改Wi-Fi密码的网址是什么了)

本文目录修改Wi-Fi密码的网址是什么了改WiFi密码的网址是什么如何进入192.168.0.1修改wifi密码在哪里修改wifi密码修改Wi-Fi密码的网址是什么了修改WiFi密码的网址默认为192.168.0.1或192.168.1.1

2024年4月13日 13:50

p9200一代和二代(PSP一代和二代,三代有什么区别)

p9200一代和二代(PSP一代和二代,三代有什么区别)

本文目录PSP一代和二代,三代有什么区别戴尔一代机和二代机有什么区别尿素一代和2代的区别p9200功夫是几代PSP一代和二代,三代有什么区别1,1000在手感上比2000好的多,区别在于背部突起的部分,2000将此省去,以减轻重量...2,

2024年10月19日 23:10

红米note3电子罗盘在哪(红米redmi3参数)

红米note3电子罗盘在哪(红米redmi3参数)

本文目录红米redmi3参数红米手机上不是说有 电子罗盘 陀螺仪吗,怎么没找到,在哪找呢红米note3otg功能怎么打开红米1s电子罗盘在哪里红米note3全网通版充电接口是什么接口红米3手机详细参数红米note是什么时候发布的红米redm

2024年8月26日 08:50