titanic数据集(决策树如果数据集不够多,会导致分类准确率低吗)

2024-05-25 17:00:02 :19

titanic数据集(决策树如果数据集不够多,会导致分类准确率低吗)

本文目录

决策树如果数据集不够多,会导致分类准确率低吗

  • 日中等,低),会写代码有两个 属性(会,不会),最终分类结果有两类(见,不见)。

  • 决策树如果数据集不够多,是会导致分类准确率低的。。因为对训练数据进行正确分类的决策树可能有多个,可能没有。

如何用Python在10分钟内建立一个预测模型

  预测模型的分解过程  我总是集中于投入有质量的时间在建模的初始阶段,比如,假设生成、头脑风暴、讨论或理解可能的结果范围。所有这些活动都有助于我解决问题,并最终让我设计出更强大的商业解决方案。为什么你要在前面花费这段时间,这有充分的理由:  你有足够的时间投入并且你是无经验的(这是有影响的)  你不带有其它数据观点或想法的偏见(我总是建议,在深入研究数据之前做假设生成)  在后面的阶段,你会急于完成该项目而没有能力投入有质量的时间了。  这个阶段需要投入高质量时间,因此我没有提及时间表,不过我建议你把它作为标准的做法。这有助于你建立建立更好地预测模型,在后面的阶段的只需较少的迭代工作。让我们来看看建立第一个模型的剩余阶段的时间表:  数据描述性分析——50%的时间  数据预处理(缺失值和异常值修复)——40%的时间  数据建模——4%的时间  性能预测——6%的时间  让我们一步一步完成每个过程(每一步投入预测的时间):  阶段1:描述性分析/数据探索  在我刚开始成为数据科学家的时候,数据探索占据了我大量的时间。不过,随着时间的推移,我已经把大量的数据操作自动化了。由于数据准备占据建立第一个模型工作量的50%,自动化的好处是显而易见的。  这是我们的第一个基准模型,我们去掉任何特征设计。因此,描述分析所需的时间仅限于了解缺失值和直接可见的大的特征。在我的方法体系中,你将需要2分钟来完成这一步(假设,100000个观测数据集)。  我的第一个模型执行的操作:  确定ID,输入特征和目标特征  确定分类和数值特征  识别缺失值所在列  阶段2:数据预处理(缺失值处理)  有许多方法可以解决这个问题。对于我们的第一个模型,我们将专注于智能和快速技术来建立第一个有效模型。  为缺失值创建假标志:有用,有时缺失值本身就携带了大量的信息。  用均值、中位数或其它简单方法填补缺失值:均值和中位数填补都表现良好,大多数人喜欢用均值填补但是在有偏分布的情况下我建议使用中位数。其它智能的方法与均值和中位数填补类似,使用其它相关特征填补或建立模型。比如,在Titanic生存挑战中,你可以使用乘客名字的称呼,比如:“Mr.”, “Miss.”,”Mrs.”,”Master”,来填补年龄的缺失值,这对模型性能有很好的影响。  填补缺失的分类变量:创建一个新的等级来填补分类变量,让所有的缺失值编码为一个单一值比如,“New_Cat”,或者,你可以看看频率组合,使用高频率的分类变量来填补缺失值。  由于数据处理方法如此简单,你可以只需要3到4分钟来处理数据。  阶段3:数据建模  根据不同的业务问题,我推荐使用GBM或RandomForest技术的任意一种。这两个技术可以极其有效地创建基准解决方案。我已经看到数据科学家通常把这两个方法作为他们的第一个模型同时也作为最后一个模型。这最多用去4到5分钟。  阶段4:性能预测  有各种各样的方法可以验证你的模型性能,我建议你将训练数据集划分为训练集和验证集(理想的比例是70:30)并且在70%的训练数据集上建模。现在,使用30%的验证数据集进行交叉验证并使用评价指标进行性能评估。最后需要1到2分钟执行和记录结果。  本文的目的不是赢得比赛,而是建立我们自己的基准。让我们用python代码来执行上面的步骤,建立你的第一个有较高影响的模型。  让我们开始付诸行动  首先我假设你已经做了所有的假设生成并且你擅长使用python的基本数据科学操作。我用一个数据科学挑战的例子来说明。让我们看一下结构:  步骤1:导入所需的库,读取测试和训练数据集。  #导入pandas、numpy包,导入LabelEncoder、random、RandomForestClassifier、GradientBoostingClassifier函数  import pandas as pd  import numpy as np  fromsklearn.preprocessing import LabelEncoder  import random  fromsklearn.ensemble import RandomForestClassifier  from sklearn.ensembleimport GradientBoostingClassifier  #读取训练、测试数据集  train=pd.read_csv(’C:/Users/AnalyticsVidhya/Desktop/challenge/Train.csv’)  test=pd.read_csv(’C:/Users/AnalyticsVidhya/Desktop/challenge/Test.csv’)  #创建训练、测试数据集标志  train=’Train’  test=’Test’  fullData =pd.concat(,axis=0) #联合训练、测试数据集  步骤2:该框架的第二步并不需要用到python,继续下一步。  步骤3:查看数据集的列名或概要  fullData.columns # 显示所有的列名称  fullData.head(10) #显示数据框的前10条记录  fullData.describe() #你可以使用describe()函数查看数值域的概要  步骤4:确定a)ID变量 b)目标变量 c)分类变量 d)数值变量 e)其他变量。  ID_col =  target_col =  cat_cols =  num_cols= list(set(list(fullData.columns))-set(cat_cols)-set(ID_col)-set(target_col)-set(data_col))  other_col= #为训练、测试数据集设置标识符  步骤5:识别缺失值变量并创建标志  fullData.isnull().any()#返回True或False,True意味着有缺失值而False相反  num_cat_cols = num_cols+cat_cols # 组合数值变量和分类变量  #为有缺失值的变量创建一个新的变量  # 对缺失值标志为1,否则为0  for var in num_cat_cols:  if fullData.isnull().any()=True:  fullData=fullData.isnull()*1  步骤6:填补缺失值  #用均值填补数值缺失值  fullData = fullData.fillna(fullData.mean(),inplace=True)  #用-9999填补分类变量缺失值  fullData = fullData.fillna(value = -9999)  步骤7:创建分类变量的标签编码器,将数据集分割成训练和测试集,进一步,将训练数据集分割成训练集和测试集。  #创建分类特征的标签编码器  for var in cat_cols:  number = LabelEncoder()  fullData = number.fit_transform(fullData.astype(’str’))  #目标变量也是分类变量,所以也用标签编码器转换  fullData = number.fit_transform(fullData.astype(’str’))  train=fullData=’Train’]  test=fullData=’Test’]  train = np.random.uniform(0, 1, len(train)) 《= .75  Train, Validate = train=True], train=False]  步骤8:将填补和虚假(缺失值标志)变量传递到模型中,我使用随机森林来预测类。  features=list(set(list(fullData.columns))-set(ID_col)-set(target_col)-set(other_col))  x_train = Train.values  y_train = Train.values  x_validate = Validate.values  y_validate = Validate.values  x_test=test.values  random.seed(100)  rf = RandomForestClassifier(n_estimators=1000)  rf.fit(x_train, y_train)  步骤9:检查性能做出预测  status = rf.predict_proba(x_validate)  fpr, tpr, _ = roc_curve(y_validate, status)  roc_auc = auc(fpr, tpr)  print roc_auc  final_status = rf.predict_proba(x_test)  test=final_status  test.to_csv(’C:/Users/Analytics Vidhya/Desktop/model_output.csv’,columns=)  现在可以提交了!

titanic数据集(决策树如果数据集不够多,会导致分类准确率低吗)

本文编辑:admin

本文相关文章:


titanic数据集(关于泰坦尼克号的资料)

titanic数据集(关于泰坦尼克号的资料)

本文目录关于泰坦尼克号的资料R语言自学笔记-2内置数据集pandas怎么把波士顿矩阵的90%作为训练集关于泰坦尼克号的资料泰坦尼克号(英文RMS Titanic),台湾和香港称为铁达尼号,是20世纪初英国制造的一艘在当时世界最大的豪华客轮,

2024年5月13日 16:10

更多文章:


柯达单反相机(单反相机需要胶卷吗)

柯达单反相机(单反相机需要胶卷吗)

本文目录单反相机需要胶卷吗数码相机什么牌子好柯达有单反相机吗单反相机怎么选,单反相机选购方法都有哪些牌子的相机柯达p850的评测详情世界上第一部CCD数码单反是单反相机什么牌子好kodak相机多少钱,kodak相机型号推荐单反相机需要胶卷吗

2024年9月14日 01:40

宝马7系2021款多少钱能落地?win7系统耳机插上去没用怎么办

宝马7系2021款多少钱能落地?win7系统耳机插上去没用怎么办

戴尔笔记本windows7系统如何一键还原戴尔电脑恢复出厂设置的方法如下(要求机器出厂有带操作系统,点击“下一步”就可以开始恢复系统到出厂状态8.在恢复过程中,直接“确定”即可4.进入系统恢复选项后,2、进行声卡驱动安装,扩展资料:电脑耳机

2024年3月7日 05:50

索尼n3ap值得买吗(手机直推,平时主要听流行,索尼N3AP好还是天龙c820比较好)

索尼n3ap值得买吗(手机直推,平时主要听流行,索尼N3AP好还是天龙c820比较好)

后来是考虑到N3AP手机不太推得好,C820是低频比较好,所以索尼n3ap用来k歌很不错索尼n3ap用来k歌效果真的很好,因为索尼n3ap的性能很好,索尼N3AP好还是天龙c820比较好不请自来,索尼N3AP有必要升级12SB1线吗没有必要

2024年3月1日 06:20

win10防火墙变灰色不能修改(Win10专业版系统防火墙无法更改设置怎么办)

win10防火墙变灰色不能修改(Win10专业版系统防火墙无法更改设置怎么办)

本文目录Win10专业版系统防火墙无法更改设置怎么办win10安全中心服务Security Center无法设置,启动类型是灰色无法更改WIN10 Windows Defender自动启动是灰色的怎么更改自动启动简单几步解决win10防火墙

2024年11月8日 08:20

电脑操作系统下载(在使用电脑的时候,偶尔会有重装电脑的需求,那么win系统去哪里下载好)

电脑操作系统下载(在使用电脑的时候,偶尔会有重装电脑的需求,那么win系统去哪里下载好)

本文目录在使用电脑的时候,偶尔会有重装电脑的需求,那么win系统去哪里下载好华硕笔记本电脑系统在哪里下载!Windows系统在哪里下载Windows系统在哪些网站下载比较好用流畅官方正版win7系统旗舰版iso镜像文件下载地址在使用电脑的时

2024年10月24日 05:00

浏览器哪个好知乎(浏览器排行榜前十名有哪些)

浏览器哪个好知乎(浏览器排行榜前十名有哪些)

本文目录浏览器排行榜前十名有哪些浏览器哪个更好用什么浏览器最好用呢浏览器排行榜前十名有哪些浏览器排行榜前十名如下:1、Chrome浏览器在各种PC浏览器排行榜中都稳居第一,这是款一款设计简单、高效的浏览器,最大的亮点就是其多进程架构,保护浏

2024年10月12日 21:20

九机网营业时间(上海浦东机场日上免税店是在国际到达区还是出发区,是24小时的店吗)

九机网营业时间(上海浦东机场日上免税店是在国际到达区还是出发区,是24小时的店吗)

均划归新成立的中国工商银行湖北省分行营业部管理,均划归新成立的中国工商银行湖北省分行营业部管理,新成立中国工商银行湖北省分行营业部,新成立中国工商银行湖北省分行营业部,2020年1月4日,工行)成立于1984年1月1日,该行与中国工商银行湖

2024年3月26日 15:00

一千左右的智能机,初步定下了联想a830,htc新渴望v,诺基亚520三款机子,这三个哪个好一点?HTC新渴望VC分辨率是多少

一千左右的智能机,初步定下了联想a830,htc新渴望v,诺基亚520三款机子,这三个哪个好一点?HTC新渴望VC分辨率是多少

本文目录一千左右的智能机,初步定下了联想a830,htc新渴望v,诺基亚520三款机子,这三个哪个好一点HTC新渴望VC分辨率是多少htc t328w 新渴望v上哪些些自带软件是收费的一千左右的智能机,初步定下了联想a830,htc新渴望v

2024年6月9日 12:00

vivox21缺点(vivo x21系列手机怎么样,好不好,优点,缺点)

vivox21缺点(vivo x21系列手机怎么样,好不好,优点,缺点)

本文目录vivo x21系列手机怎么样,好不好,优点,缺点vivo Z3 和vivox21哪个好vivox21那么多缺点吗,我吓得都不敢买了vivo x21系列手机怎么样,好不好,优点,缺点vivo Z3 和vivox21哪个好可点击进入添

2024年5月11日 17:40

奥迪rs5最新价格(奥迪RS52020款自动挡落地价多少奥迪RS5报价)

奥迪rs5最新价格(奥迪RS52020款自动挡落地价多少奥迪RS5报价)

RS5的功率和扭矩调节更高奥迪S5和RS5是同一款车型吗,奥迪S5和RS5奥迪RS5和S5完全是两个档次的车,奥迪RS5和S5完全是两个档次的车,(图/文/摄:太平洋汽车网问答叫兽)奥迪rs5现在多少钱奥迪RS5和S5差距大吗,奥迪RS5和

2024年3月8日 09:50

华为官方壁纸(华为锁屏壁纸为什么只能换官方的壁纸)

华为官方壁纸(华为锁屏壁纸为什么只能换官方的壁纸)

本文目录华为锁屏壁纸为什么只能换官方的壁纸华为官方华山壁纸在什么地方华为mate50pro壁纸代表什么意思怎么更换华为手机壁纸华为的超级壁纸在哪华为锁屏壁纸为什么只能换官方的壁纸华为锁屏壁纸只能换官方的壁纸,这是出于安全考虑。用户自行上传的

2024年4月28日 20:30

手机无法连接appstore(苹果手机为什么打不开appstore了啊)

手机无法连接appstore(苹果手机为什么打不开appstore了啊)

本文目录苹果手机为什么打不开appstore了啊苹果手机怎么登录appstore不了啊无法连接appstore怎么办 无法连接appstore解决办法连接不到appstore 连接不到appstore的解决方法appstore无法连接怎么办

2024年9月4日 12:50

2021年大屏手机7寸以上(2021年哪款手机好)

2021年大屏手机7寸以上(2021年哪款手机好)

荣耀X20 Max彩蛋登场 那些年我们追过的巨屏手机 对于大屏党来说,小米成为了大屏手机最大赢家,这些年手机市场真的是很不友好,当年推出过一款酷派大神手机,那这里就让我们看看这五六年我们追过的巨屏手机(不包含折叠屏手机),2021年这次中兴

2024年4月1日 15:20

索尼爱立信vivaz(Sony Ericsson/索尼爱立信 U5i/Vivaz 智能手机 联保行货 索爱 好吗)

索尼爱立信vivaz(Sony Ericsson/索尼爱立信 U5i/Vivaz 智能手机 联保行货 索爱 好吗)

有哪些说我关注了2年多索爱的机器,身边也有无数人用索爱的机器!~感觉索爱确实比N的手机爱出毛病~相对质量确实不如N的稳定,但是样子,价钱,操作界面却做的很好!~T618是我认为质量最好的机器,当然现在不能去买他来用!性价比较高的有K750,

2024年3月8日 08:10

佳能ixus220hs刚上市多少钱(佳能 IXUS 220 HS现在多少钱)

佳能ixus220hs刚上市多少钱(佳能 IXUS 220 HS现在多少钱)

本文目录佳能 IXUS 220 HS现在多少钱佳能数码相机IXUS220HS报价是多少佳能 IXUS220 HS目前价格在1700元左右,看了好长时间卡片机拍照片是第一位的可是摄像功能我还很关心常州市区哪里买佳能IXUS 220 HS便宜点

2024年6月29日 17:20

索尼ct180(50寸以下电视匹配的索尼音响型号)

索尼ct180(50寸以下电视匹配的索尼音响型号)

本文目录50寸以下电视匹配的索尼音响型号索尼HT-CT180怎么样索尼HT-CT180好吗各位大神漫步者b7和索尼ct180选哪个索尼Soundbar HT-CT180有什么吸引人的亮点呢索尼htct180回音壁音箱怎么样索尼HT-CT18

2024年5月19日 13:20

realme真我v5参数(realme真我V5和OPPOK5哪个好-realme真我V5和OPPOK5参数对比)

realme真我v5参数(realme真我V5和OPPOK5哪个好-realme真我V5和OPPOK5参数对比)

2.拍照方面 realme真我v5采用了一颗1600万像素的前置镜头,2.拍照方面 realme真我v5采用了一颗1600万像素的前置镜头,realme真我v5采用的是四摄设计,realme真我v5采用的是四摄设计,本文以realme

2024年3月15日 16:40

iphonex屏幕比例(iphonex手机屏幕多大)

iphonex屏幕比例(iphonex手机屏幕多大)

本文目录iphonex手机屏幕多大iphonex多少寸屏幕苹果X的屏幕尺寸是多少iphonex屏幕的尺寸是多少(与iphone12屏幕的尺寸相比)iphonex屏幕比例是多少iPhonex满铺比例iphonex手机屏幕多大iphonex手机

2024年9月25日 00:10

小米手机助手电脑版下载(怎么把导入到小米手机助手)

小米手机助手电脑版下载(怎么把导入到小米手机助手)

本文目录怎么把导入到小米手机助手怎么用小米手机助手小米2怎么从电脑上面下载东西啊小米手机助手连接不上没反应小米手机助手连接不上手机的解决方法小米手机助手电脑版在哪下载小米手机助手怎样下载啊怎么把导入到小米手机助手1. 如何使用小米手机助手将

2024年9月9日 19:20

g1620有必要升级成i32120吗(海尔h61主板+G1620处理器升级i32100可直接上CP不用刷bios是吗)

g1620有必要升级成i32120吗(海尔h61主板+G1620处理器升级i32100可直接上CP不用刷bios是吗)

海尔h61主板+G1620处理器升级i32100可直接上CP不用刷bios是吗只要主板支持22NM的三代CPU,还是上4核的二三代 I5/I7或E3 V1,V2更好华硕h61m e 的主板cpug1620换成i3 2120性能提升多少换成i

2024年3月31日 17:10