毕业论文用决策树分类

1.毕业设计题目是(选用决策树算法的数据挖掘实例分析与设计)

应用遗传算法和决策树算法在数据挖掘中的比较 贾修一 MG0533024 (南京大学 计算机科学与技术系, 江苏省南京市 210093) A Comparision between the Genetic Algorithms and Decision Tree For Data Mining Abstract: This chapter introduces the application with the genetic algorithms and ID3 for the data mining, choose the better algorithm to classifier the given data sets through.the comparision between the two algorithms. And analyzing the results of the experiment as well as reasons. Key words: genetic algrithms; data ming; decision Tree 摘 要: 对训练数据分别采用遗传算法和决策树算法进行数据挖掘,通过比较两者实验得出的结果,来选择更适合本数据集的算法进行分类,并分析实验结果及原因. 关键词: 遗传算法;数据挖掘;决策树算法 1. 数据的描述 数据属性有139351维,每个属性的取值为0或1,分类标识只有两类:A和I.数据的维数太高,在数据预处理阶段最好做属性的约简,进行降维的处理. (1)数据维数太高,易造成一定的维数灾难,使得分类挖掘时间过长. (2)数据庞大,肯定有些噪音数据. 2.算法的设计 为了提高最后分类的精确度,特设计了两种方法进行比较,从中选出一种精确度高的方法.第一种是根据数据的特点,每个属性只取值0和1,所以进行属性约简的时候采用遗传算法.遗传算法的优点是可以对大规模的数据进行一定的属性约简. 2.1 遗传算法描述: (1) 遗传算法的步骤是编码,选择,交叉,变异.通过模仿自然界中的遗传进化原理,来对数据进行处理.而遗传算法的好坏取决于适应度函数的选择,进化的次数,和交叉变异的合理性和概率性等,所以要想设计一个合适的遗传算法必须经过大量的实验. (2) 就训练数据而言,对每一维属性的取值,在类标识一定的条件下,取1和取0的概率之间有个绝对值差α1,α2,该差越大,说明该属性的重要程度越高.同时还要考虑对同一维属性,不论最终类标识是什么,取值都相同的话,则该属性可以被认为是无效的属性,对最后的分类没有影响,所以适应度函数取对每一维属性的α1,α2的熵,熵越大,则属性的重要程度就越低. (3) 编码阶段,就把每一位属性做为一个长度为139351的染色体的一个基因,1表示选择该属性,0表示不选择该属性.随机初始化8个种群,按照适应度函数的定义,从中选取4个适应度函数最小的染色体做为父代. (4) 将选出的父代进行交叉操作,因为是降维操作,所以交叉就是取两个染色体之间隔位进行AND(与)操作,变异就是按照一定的概率,在139351维上随机的100位进行非操作,即:0变为1,1变为0.依次又产生4个后代,结合原来的4个父代组成新的8个初始种群.进化50次. 然后利用贝叶斯方法进行分类.得到的是一个弱的学习器h,然后利用AdaBoost方法进行强化学习分类器. 2.2 AdaBoost算法描述: (1) 给定训练集(x1,y1),(x2,y2),…,(xm,ym)m个. (2) yi∈{-1,+1},实例xi∈X的正确标识. (3) for t=1,…,T 2 { 构造{1,…,m}上的分布Dt,找出弱分类器 ht:X->{-1,+1}, 同时在Dt产生很小的错误εt: εt=PrDt[ht(xi)≠yi] } (4)构造 Dt,D1(i)=1/m Dt+1(i)= Dt/Zt*exp(-αt*yi*ht(xi))//(注:yi和ht(xi)只能取值于{-1,+1}) 其中Zt是归一化因子(使Dt+1为分布) αt=1/2*㏑((1-εt)/ εt)>0 (5)输出最终分类器:Hfinal(x)=sign(∑αt*ht(x)). 第二种方法就是直接使用决策树方法(ID3算法)进行分类.求出每一维属性的的信息增益,建立一棵决策树,利用决策树来进行分类. 2.3 决策树算法(ID3) (1)创建节点N; (2)if samples都在同一个类C then { 返回N作为叶结点,以类C标识; } (3)if attribut_list为空 then { 返回N作为叶结点,标记为samples中最普通的类; } (4) 选择attribute_list中具有最高信息增益的属性test_attribute;标记节点N为test_attribute; (5) for each test_attribute中的已知值a 由节点N长出一个条件为test_attribute=a的分枝; (6) 设s是samples中test_attribute=a的样本的集合; (7) if s为空 then 加上一个树叶,标记weisamples中最普通的类; else 加上一个由ID3(s,attribute_list-test_attribute)返回的节点; 3. 实验分析 就第一种方法:通过实验,在进化次数上选取50次,使得维数约简到1500维左右时得到的分类效果最好,但由于种群是随机产生的,所以在未进行boosting强化时正确率在60~85%之间,不是很稳定,但是符合弱分类器的要求,即只要正确率超过50%就行,在进行boosting后,正确率能超过80%,但可能是数据进行约简的不好或进行迭代的次数选取不太合适,正确率却没有ID3的高.就本数据集而言,由于最终标识只有2个,所以比较适合使用遗传算法和Adaboost进行训练.正确率不高主要问题应该在: (1)遗传算法的适应度函数没有选好,不同的编码方式对应不同的适应度函数取法,就本例而言,二进制编码方式应该是可以的,就是在对适应度函数取的时候没有一个合适的数据表示,只好利用了熵的概念,但在实际意义上感觉效果并不是很好.属性约简后正确率不高,这应该是最主要的原因. (2)交叉变异的方式或许有问题,但是不是主要问题,只要适应度函数选好,也就是选择操作正确。

2.如何运用决策树进行决策分析

决策树分析法是通过决策树图形展示临床重要结局,明确思路,比较各种备选方案预期结果进行决策的方法。

决策树分析法通常有6个步骤。

第一步:明确决策问题,确定备选方案。对要解决的问题应该有清楚的界定,应该列出所有可能的备选方案。

第二步:绘出决策树图形。决策树用3种不同的符号分别表示决策结、机会结、结局结。决策结用图形符号如方框表示,放在决策树的左端,每个备选方案用从该结引出的]个臂(线条)表示;实施每一个备选方案时都司能发生一系列受机遇控制的机会事件,用图形符号圆圈表示,称为机会结,每一个机会结司以有多个直接结局,例如某种治疗方案有3个结局(治愈、改善、药物毒性致死),则机会结有3个臂。最终结局用图形符号如小三角形表示,称为结局结,总是放在决策树最右端。从左至右机会结的顺序应该依照事件的时间先后关系而定。但不管机会结有多少个结局,从每个机会结引出的结局必须是互相排斥的状态,不能互相包容或交叉。

第三步:明确各种结局可能出现的概率。可以从文献中类似的病人去查找相关的概率,也可以从临床经验进行推测。所有这些概率都要在决策树上标示出来。在为每一个机会结发出的直接结局臂标记发生概率时,必须注意各概率相加之和必须为1.0。

第四步:对最终结局用适宜的效用值赋值。效用值是病人对健康状态偏好程度的测量,通常应用0-1的数字表示,一般最好的健康状态为1,死亡为0。有时可以用寿命年、质量调整寿命年表示。

第五步:计算每一种备远方案的期望值。计算期望值的方法是从"树尖"开始向"树根"的方向进行计算,将每一个机会结所有的结局效用值与其发生概率分别相乘,其总和为该机会结的期望效用值。在每一个决策臂中,各机会结的期望效用值分别与其发生概率相乘,其总和为该决策方案的期望效用值,选择期望值最高的备选方案为决策方案。

第六步:应用敏感性试验对决策分析的结论进行测试。敏感分析的目的是测试决策分析结论的真实性。敏感分析要回答的问题是当概率及结局效用值等在一个合理的范围内变动时,决策分析的结论会不会改变。

3.IDRISI多目标方法本人在写毕业论文关于评价地市用地防灾适宜度 爱问

IDRISI是一个将地理信息系统和图像处理功能完美结合的软件,它所提供的250多个模块能有效地显示、处理和分析各种数字化的空间信息。

纵观目前的空间信息产业领域,恐怕还没有第二种软件能像IDRISI那样,在同一个系统中提供如此齐备、完善的GIS和图像处理工具。 1、使用IDRISI最新开发的土地变化模型(land change modeler)工具,可以模拟和预测土地覆盖的变化,并对造成这些变化的因素和机制进行分析 针对生态可持续性研究而开发的土地变化模型工具,有效集成了以下几方面的功能: (1) 土地覆盖变化评估; (2) 土地覆盖变化预测; (3) 土地覆盖变化对动植物生境和生物多样性影响的生态评估; (4) 生态调节规划 2、使用一套完整的图像处理技术对遥感图像进行处理,包括独具特色的软分类(soft classifier)分类器、神经网络(neural network)分类器以及决策树分析(decision tree analyses)分类器 IDRISI拥有不同凡响的图像分类工具,其中具有自我学习能力的三种神经网络分类器最具特色,它们分别是:多图层识别感知器(multi-layer perceptron),自组织地图(self organizing map),以及基于可适应共鸣理论(Adaptive Resonance Theory, ART)与模糊数学理论的模糊ART地图(fuzzy ART map)。

3、利用边缘切割决策支持(cutting-edge decision support)和不确定性管理(uncertainty management)工具对资源进行分配,并建立适宜性分布图 右图是利用IDRISI所作的研究实例之一:未来海平面上升对越南某沿海水稻产区可能造成的影响。 这一研究的重要内容就是充分考虑了高程数据与海平面上升的不确定性,并将二者紧密结合,从而预测海侵及受淹地区。

左上角那幅图就是基于某一可接受的风险水平所作的洪水分布概率图。在此基础上,利用多准则分析(multi-criteria analysis)模型对洪水发生后人们的重新安置做出预测,并生成一幅土地覆盖的预测图。

IDRISI的最新版本Taiga已于2009年1月在美国发布。该新版本包含了更多和更复杂的时间序列可视化和分析,以及地球趋势模型(Earth Trends Modeler),为当今炙手可热的气候变化课题提供了有效的分析工具。

毕业论文用决策树分类

转载请注明出处众文网 » 毕业论文用决策树分类

资讯

怎样做好出纳毕业论文

阅读(72)

本文主要为您介绍怎样做好出纳毕业论文,内容包括老师叫我交份1000字的论文,"如何做好个出纳"各位大哥帮帮忙啊,怎样做好一名出纳员的论文里面写出纳员职业道德缺失和解决方法可以,谁帮忙写一篇不少于2000字的论文《如何做好一名出纳及如何参

资讯

平面图形毕业论文设计

阅读(75)

本文主要为您介绍平面图形毕业论文设计,内容包括求平面设计的毕业论文,求平面设计论文、毕业论文,帮我弄一个平面设计毕业论文。浅析现代平面设计的创意切入点摘要:现代的平面设计日新月异,随着新思维、新观念、新科技、新媒体、新材料开发利

资讯

毕业论文格式要求高吗

阅读(95)

本文主要为您介绍毕业论文格式要求高吗,内容包括大学论文格式要求真的那么高吗,毕业论文一定要有什么格式吗,写(本科毕业论文)格式要求要怎么样。一定是需要的,而且一定要是本校的 你的论文准备往什么方向写,选题老师审核通过了没,有没有列个大

资讯

法学毕业论文概述

阅读(99)

本文主要为您介绍法学毕业论文概述,内容包括法学的毕业论文,法学毕业论文文献综述怎么写,如何写关于法律论文的概述啊。法学学术论文的一般格局是一)题目。题目是论文的窗户,应是论文内容的高度概括。好的论文题目能大体反映出作者研究的方向

资讯

食安专业本科毕业论文

阅读(87)

本文主要为您介绍食安专业本科毕业论文,内容包括食品安全论文3000字求一篇关于食品安全的3000字论文,重谢爱问知,求一篇2000字的食品安全论文,食品专业的毕业论文。食品安全问题原因浅析我国食品安全的现状 虽然我国在食品安全方面已取得很

资讯

社工本科毕业论文题目

阅读(83)

本文主要为您介绍社工本科毕业论文题目,内容包括我是学社会工作的,要写有关大学毕业论文,不道写什么题目,什么样,怎样选取适合的可行的有关社会政策的本科毕业论文题目,通俗来说,有关社会工作的可写的论题。相关数据直接在你们学校的图书馆

资讯

2017党校培训毕业论文

阅读(76)

本文主要为您介绍2017党校培训毕业论文,内容包括求一篇大学生的党课结业论文(不少于3000字哦)谢谢了,,党课结业论文格式是怎样的党课结业论文格式是怎样的啊,求一份党课结业论文。高级党校结业论文 时光荏苒,一个月的高级党校培训结束了,我受益

资讯

2017法律专业毕业论文

阅读(95)

本文主要为您介绍2017法律专业毕业论文,内容包括法学专业毕业论文怎么写,求一篇3000字左右的论文,求一篇法律学专业的毕业论文,法律专业毕业论文。还要的可以找我,下面提供一些论文的结构。优秀论文的要素正确的选题、合适的切入点、简洁明

资讯

旅游宣传片毕业论文

阅读(85)

本文主要为您介绍旅游宣传片毕业论文,内容包括旅游专业毕业论文,急需一篇关于旅游方面的毕业论文,关于“影视旅游”的毕业论文请各位大侠支招,关于影视旅游的毕业。33、 [旅游管理]浅析导游员的带团技巧 内容摘要:作为一名导游,在为客人提供

资讯

语文教育毕业论文论题

阅读(92)

本文主要为您介绍语文教育毕业论文论题,内容包括我是语文教育专业的什么论文题目比较好写,小学语文教育专业毕业论文可以写哪些题目,求一个小学教育专业的论文选题。提供一些语文教育专业的论文题目,供参考。 儿童课外文学阅读现状的调查与

资讯

毕业论文取消保研

阅读(105)

本文主要为您介绍毕业论文取消保研,内容包括有没有人因为毕业设计没到良被取消保研资格的,各位保研学长学姐们,你们保研之后学校是否有毕业论文良好以下取,会不会因为毕业论文成绩没到良好取消保研成绩。这个需要看保送的学校以及导师的意

资讯

毕业论文都写什么软件

阅读(84)

本文主要为您介绍毕业论文都写什么软件,内容包括毕业论文到底要怎么写(软件),写毕业论文用什么软件的,大学本科毕业论文用什么软件写。标题:学生成绩管理系统 目的:为减轻教学部门在学生成绩管理中的重复工作量,提高效率,减少错误,特开发此管理系

资讯

毕业论文参考文献检测

阅读(87)

本文主要为您介绍毕业论文参考文献检测,内容包括毕业论文查重包括参考文献吗还是只需要提交正文就可以啦搜,论文查重需要把参考文献放进去吗,论文引用的参考文献全忘了,怎么自动检测出来。论文查重需要把参考文献放进去。在进行知网检测的

资讯

绿色会计研究毕业论文

阅读(99)

本文主要为您介绍绿色会计研究毕业论文,内容包括我想写篇绿色会计的毕业论文,请问定什么题目比较好写点呢搜狗,和绿色会计有关的毕业论文选题,求关于绿色会计方面的论文资料,谢谢~。对我国绿色会计的探讨 (开题报告) 一,绿色会计研究综述及选

资讯

怎样做好出纳毕业论文

阅读(72)

本文主要为您介绍怎样做好出纳毕业论文,内容包括老师叫我交份1000字的论文,"如何做好个出纳"各位大哥帮帮忙啊,怎样做好一名出纳员的论文里面写出纳员职业道德缺失和解决方法可以,谁帮忙写一篇不少于2000字的论文《如何做好一名出纳及如何参

资讯

平面图形毕业论文设计

阅读(75)

本文主要为您介绍平面图形毕业论文设计,内容包括求平面设计的毕业论文,求平面设计论文、毕业论文,帮我弄一个平面设计毕业论文。浅析现代平面设计的创意切入点摘要:现代的平面设计日新月异,随着新思维、新观念、新科技、新媒体、新材料开发利

资讯

毕业论文格式要求高吗

阅读(95)

本文主要为您介绍毕业论文格式要求高吗,内容包括大学论文格式要求真的那么高吗,毕业论文一定要有什么格式吗,写(本科毕业论文)格式要求要怎么样。一定是需要的,而且一定要是本校的 你的论文准备往什么方向写,选题老师审核通过了没,有没有列个大

资讯

法学毕业论文概述

阅读(99)

本文主要为您介绍法学毕业论文概述,内容包括法学的毕业论文,法学毕业论文文献综述怎么写,如何写关于法律论文的概述啊。法学学术论文的一般格局是一)题目。题目是论文的窗户,应是论文内容的高度概括。好的论文题目能大体反映出作者研究的方向

资讯

食安专业本科毕业论文

阅读(87)

本文主要为您介绍食安专业本科毕业论文,内容包括食品安全论文3000字求一篇关于食品安全的3000字论文,重谢爱问知,求一篇2000字的食品安全论文,食品专业的毕业论文。食品安全问题原因浅析我国食品安全的现状 虽然我国在食品安全方面已取得很

资讯

社工本科毕业论文题目

阅读(83)

本文主要为您介绍社工本科毕业论文题目,内容包括我是学社会工作的,要写有关大学毕业论文,不道写什么题目,什么样,怎样选取适合的可行的有关社会政策的本科毕业论文题目,通俗来说,有关社会工作的可写的论题。相关数据直接在你们学校的图书馆

资讯

2017党校培训毕业论文

阅读(76)

本文主要为您介绍2017党校培训毕业论文,内容包括求一篇大学生的党课结业论文(不少于3000字哦)谢谢了,,党课结业论文格式是怎样的党课结业论文格式是怎样的啊,求一份党课结业论文。高级党校结业论文 时光荏苒,一个月的高级党校培训结束了,我受益

资讯

汽车停靠系统毕业论文

阅读(86)

本文主要为您介绍汽车停靠系统毕业论文,内容包括汽车自动启停系统结构分析及故障诊断毕业论文,汽车自动启停系统结构分析及故障诊断毕业论文怎么写,汽车系毕业论文范文。毕 业 论 文(设计) 题目:汽车发动机冷却系统维护 所在院系 专业班