1.毕业设计题目是(选用决策树算法的数据挖掘实例分析与设计)
应用遗传算法和决策树算法在数据挖掘中的比较 贾修一 MG0533024 (南京大学 计算机科学与技术系, 江苏省南京市 210093) A Comparision between the Genetic Algorithms and Decision Tree For Data Mining Abstract: This chapter introduces the application with the genetic algorithms and ID3 for the data mining, choose the better algorithm to classifier the given data sets through.the comparision between the two algorithms. And analyzing the results of the experiment as well as reasons. Key words: genetic algrithms; data ming; decision Tree 摘 要: 对训练数据分别采用遗传算法和决策树算法进行数据挖掘,通过比较两者实验得出的结果,来选择更适合本数据集的算法进行分类,并分析实验结果及原因. 关键词: 遗传算法;数据挖掘;决策树算法 1. 数据的描述 数据属性有139351维,每个属性的取值为0或1,分类标识只有两类:A和I.数据的维数太高,在数据预处理阶段最好做属性的约简,进行降维的处理. (1)数据维数太高,易造成一定的维数灾难,使得分类挖掘时间过长. (2)数据庞大,肯定有些噪音数据. 2.算法的设计 为了提高最后分类的精确度,特设计了两种方法进行比较,从中选出一种精确度高的方法.第一种是根据数据的特点,每个属性只取值0和1,所以进行属性约简的时候采用遗传算法.遗传算法的优点是可以对大规模的数据进行一定的属性约简. 2.1 遗传算法描述: (1) 遗传算法的步骤是编码,选择,交叉,变异.通过模仿自然界中的遗传进化原理,来对数据进行处理.而遗传算法的好坏取决于适应度函数的选择,进化的次数,和交叉变异的合理性和概率性等,所以要想设计一个合适的遗传算法必须经过大量的实验. (2) 就训练数据而言,对每一维属性的取值,在类标识一定的条件下,取1和取0的概率之间有个绝对值差α1,α2,该差越大,说明该属性的重要程度越高.同时还要考虑对同一维属性,不论最终类标识是什么,取值都相同的话,则该属性可以被认为是无效的属性,对最后的分类没有影响,所以适应度函数取对每一维属性的α1,α2的熵,熵越大,则属性的重要程度就越低. (3) 编码阶段,就把每一位属性做为一个长度为139351的染色体的一个基因,1表示选择该属性,0表示不选择该属性.随机初始化8个种群,按照适应度函数的定义,从中选取4个适应度函数最小的染色体做为父代. (4) 将选出的父代进行交叉操作,因为是降维操作,所以交叉就是取两个染色体之间隔位进行AND(与)操作,变异就是按照一定的概率,在139351维上随机的100位进行非操作,即:0变为1,1变为0.依次又产生4个后代,结合原来的4个父代组成新的8个初始种群.进化50次. 然后利用贝叶斯方法进行分类.得到的是一个弱的学习器h,然后利用AdaBoost方法进行强化学习分类器. 2.2 AdaBoost算法描述: (1) 给定训练集(x1,y1),(x2,y2),…,(xm,ym)m个. (2) yi∈{-1,+1},实例xi∈X的正确标识. (3) for t=1,…,T 2 { 构造{1,…,m}上的分布Dt,找出弱分类器 ht:X->{-1,+1}, 同时在Dt产生很小的错误εt: εt=PrDt[ht(xi)≠yi] } (4)构造 Dt,D1(i)=1/m Dt+1(i)= Dt/Zt*exp(-αt*yi*ht(xi))//(注:yi和ht(xi)只能取值于{-1,+1}) 其中Zt是归一化因子(使Dt+1为分布) αt=1/2*㏑((1-εt)/ εt)>0 (5)输出最终分类器:Hfinal(x)=sign(∑αt*ht(x)). 第二种方法就是直接使用决策树方法(ID3算法)进行分类.求出每一维属性的的信息增益,建立一棵决策树,利用决策树来进行分类. 2.3 决策树算法(ID3) (1)创建节点N; (2)if samples都在同一个类C then { 返回N作为叶结点,以类C标识; } (3)if attribut_list为空 then { 返回N作为叶结点,标记为samples中最普通的类; } (4) 选择attribute_list中具有最高信息增益的属性test_attribute;标记节点N为test_attribute; (5) for each test_attribute中的已知值a 由节点N长出一个条件为test_attribute=a的分枝; (6) 设s是samples中test_attribute=a的样本的集合; (7) if s为空 then 加上一个树叶,标记weisamples中最普通的类; else 加上一个由ID3(s,attribute_list-test_attribute)返回的节点; 3. 实验分析 就第一种方法:通过实验,在进化次数上选取50次,使得维数约简到1500维左右时得到的分类效果最好,但由于种群是随机产生的,所以在未进行boosting强化时正确率在60~85%之间,不是很稳定,但是符合弱分类器的要求,即只要正确率超过50%就行,在进行boosting后,正确率能超过80%,但可能是数据进行约简的不好或进行迭代的次数选取不太合适,正确率却没有ID3的高.就本数据集而言,由于最终标识只有2个,所以比较适合使用遗传算法和Adaboost进行训练.正确率不高主要问题应该在: (1)遗传算法的适应度函数没有选好,不同的编码方式对应不同的适应度函数取法,就本例而言,二进制编码方式应该是可以的,就是在对适应度函数取的时候没有一个合适的数据表示,只好利用了熵的概念,但在实际意义上感觉效果并不是很好.属性约简后正确率不高,这应该是最主要的原因. (2)交叉变异的方式或许有问题,但是不是主要问题,只要适应度函数选好,也就是选择操作正确。
2.如何运用决策树进行决策分析
决策树分析法是通过决策树图形展示临床重要结局,明确思路,比较各种备选方案预期结果进行决策的方法。
决策树分析法通常有6个步骤。
第一步:明确决策问题,确定备选方案。对要解决的问题应该有清楚的界定,应该列出所有可能的备选方案。
第二步:绘出决策树图形。决策树用3种不同的符号分别表示决策结、机会结、结局结。决策结用图形符号如方框表示,放在决策树的左端,每个备选方案用从该结引出的]个臂(线条)表示;实施每一个备选方案时都司能发生一系列受机遇控制的机会事件,用图形符号圆圈表示,称为机会结,每一个机会结司以有多个直接结局,例如某种治疗方案有3个结局(治愈、改善、药物毒性致死),则机会结有3个臂。最终结局用图形符号如小三角形表示,称为结局结,总是放在决策树最右端。从左至右机会结的顺序应该依照事件的时间先后关系而定。但不管机会结有多少个结局,从每个机会结引出的结局必须是互相排斥的状态,不能互相包容或交叉。
第三步:明确各种结局可能出现的概率。可以从文献中类似的病人去查找相关的概率,也可以从临床经验进行推测。所有这些概率都要在决策树上标示出来。在为每一个机会结发出的直接结局臂标记发生概率时,必须注意各概率相加之和必须为1.0。
第四步:对最终结局用适宜的效用值赋值。效用值是病人对健康状态偏好程度的测量,通常应用0-1的数字表示,一般最好的健康状态为1,死亡为0。有时可以用寿命年、质量调整寿命年表示。
第五步:计算每一种备远方案的期望值。计算期望值的方法是从"树尖"开始向"树根"的方向进行计算,将每一个机会结所有的结局效用值与其发生概率分别相乘,其总和为该机会结的期望效用值。在每一个决策臂中,各机会结的期望效用值分别与其发生概率相乘,其总和为该决策方案的期望效用值,选择期望值最高的备选方案为决策方案。
第六步:应用敏感性试验对决策分析的结论进行测试。敏感分析的目的是测试决策分析结论的真实性。敏感分析要回答的问题是当概率及结局效用值等在一个合理的范围内变动时,决策分析的结论会不会改变。
3.IDRISI多目标方法本人在写毕业论文关于评价地市用地防灾适宜度 爱问
IDRISI是一个将地理信息系统和图像处理功能完美结合的软件,它所提供的250多个模块能有效地显示、处理和分析各种数字化的空间信息。
纵观目前的空间信息产业领域,恐怕还没有第二种软件能像IDRISI那样,在同一个系统中提供如此齐备、完善的GIS和图像处理工具。 1、使用IDRISI最新开发的土地变化模型(land change modeler)工具,可以模拟和预测土地覆盖的变化,并对造成这些变化的因素和机制进行分析 针对生态可持续性研究而开发的土地变化模型工具,有效集成了以下几方面的功能: (1) 土地覆盖变化评估; (2) 土地覆盖变化预测; (3) 土地覆盖变化对动植物生境和生物多样性影响的生态评估; (4) 生态调节规划 2、使用一套完整的图像处理技术对遥感图像进行处理,包括独具特色的软分类(soft classifier)分类器、神经网络(neural network)分类器以及决策树分析(decision tree analyses)分类器 IDRISI拥有不同凡响的图像分类工具,其中具有自我学习能力的三种神经网络分类器最具特色,它们分别是:多图层识别感知器(multi-layer perceptron),自组织地图(self organizing map),以及基于可适应共鸣理论(Adaptive Resonance Theory, ART)与模糊数学理论的模糊ART地图(fuzzy ART map)。
3、利用边缘切割决策支持(cutting-edge decision support)和不确定性管理(uncertainty management)工具对资源进行分配,并建立适宜性分布图 右图是利用IDRISI所作的研究实例之一:未来海平面上升对越南某沿海水稻产区可能造成的影响。 这一研究的重要内容就是充分考虑了高程数据与海平面上升的不确定性,并将二者紧密结合,从而预测海侵及受淹地区。
左上角那幅图就是基于某一可接受的风险水平所作的洪水分布概率图。在此基础上,利用多准则分析(multi-criteria analysis)模型对洪水发生后人们的重新安置做出预测,并生成一幅土地覆盖的预测图。
IDRISI的最新版本Taiga已于2009年1月在美国发布。该新版本包含了更多和更复杂的时间序列可视化和分析,以及地球趋势模型(Earth Trends Modeler),为当今炙手可热的气候变化课题提供了有效的分析工具。
转载请注明出处众文网 » 毕业论文用决策树分类